会员
商店
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
2025年2月14日
DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
摘要: 强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型
阅读全文
posted @ 2025-02-14 10:18 deephub
阅读(158)
评论(0)
推荐(0)
编辑
公告