2025 年 2月 7 日随笔档案 - 又见阿郎

2025年2月7日

摘要：概述首发自个人公众号：阿郎小哥的随笔驿站 DeepSeek R1系列建议阅读之前的系列文章：聊聊DeepSeek R1的一些总结聊聊DeepSeek R1的开源复现库——Open R1之合成数据聊聊DeepSeek R1的知识蒸馏与应用思考简介 GRPO 是一种在线学习算法，这意味着它通过阅读全文

posted @ 2025-02-07 13:58 又见阿郎阅读(9285) 评论(0) 推荐(1)

又见阿郎

公告