摘要: 前言 近两年AIGC模型均在SFT之后,进行强化学习的微调,并逐渐成为主流范式,因此,记录一下学习强化学习的笔记,以供回顾。本笔记参考https://www.bilibili.com/video/BV1sd4y167NS。 在强化学习笔记(一)基本概念中,我们定义了几个基本概念,本文沿着这些概念出发 阅读全文
posted @ 2025-07-18 18:13 久逺61 阅读(57) 评论(0) 推荐(0)