Coder&W - 博客园

2025年8月13日

大模型强化学习总结

摘要：将强化学习应用于强大的基础模型，并结合已经验证的奖励机制，能够显著提升模型的推理能力和性能。Deepseek-R1、Kimi K1.5均是通过策略梯度算法训练而成的。基本概念策略 & 动作 & 状态具有参数$\theta$的因果语言模型基于当前文本前缀$s_t$(即状态/观测值)，定义下一个t 阅读全文

posted @ 2025-08-13 22:28 Coder&W 阅读(151) 评论(0) 推荐(0)

Coder

大模型强化学习总结

导航

公告