2025 年 3月 24 日随笔档案 - 第七子007

2025年3月24日

摘要： deepseek带火了GRPO，更带火了reinforcement learning，让研究人员发现RL能在pre-train的基础上较大提升LLM的逻辑推理能力！当前，互联网高速发展二十多年产生的优质数据已经使用殆尽，所以更大规模的LLM一直难产（GPT-5现在都还没发布，优质token耗尽是核心阅读全文

posted @ 2025-03-24 22:30 第七子007 阅读(3193) 评论(1) 推荐(1)

第七子007

公告