2025 年 2月 14 日随笔档案 - deephub

2025年2月14日

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

摘要：强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language Models, LLMs）推理能力的重要技术手段，特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型阅读全文

posted @ 2025-02-14 10:18 deephub 阅读(513) 评论(0) 推荐(0)

deephub

overfit深度学习

公告