Coder

2025年8月13日

大模型强化学习总结

摘要: 将强化学习应用于强大的基础模型,并结合已经验证的奖励机制,能够显著提升模型的推理能力和性能。Deepseek-R1、Kimi K1.5均是通过策略梯度算法训练而成的。 基本概念 策略 & 动作 & 状态 具有参数$\theta$的因果语言模型基于当前文本前缀$s_t$(即状态/观测值),定义下一个t 阅读全文

posted @ 2025-08-13 22:28 Coder&W 阅读(151) 评论(0) 推荐(0)

导航