随笔档案「2025年7月20日」：[PaperReading] DAPO: An Open-Source LLM ... - fariver

2025年7月20日

[PaperReading] DAPO: An Open-Source LLM Reinforcement Learning System at Scale

摘要：目录DAPO: An Open-Source LLM Reinforcement Learning System at ScaleTL;DRBackgroundMethodClip-HigherDynamic SamplingOverlong Reward ShapingExperiment总结与思阅读全文

posted @ 2025-07-20 18:58 fariver 阅读(84) 评论(0) 推荐(0)

[PaperReading] QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

摘要：目录QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement LearningTL;DRMotivationsuboptimal training efficiencyunstable optimizati 阅读全文

posted @ 2025-07-20 15:07 fariver 阅读(43) 评论(0) 推荐(0)

fariver

公告