2025 年 6月 30 日随笔档案 - 第七子007

2025年6月30日

LLM大模型：next token reasoning成为下个阶段LLM的训练范式？

摘要：目前LLM的训练范式不外乎这么几步：pre-train、SFT、RL，每个步骤都有自己的作用，比如： pre-train：把训练预料的知识压缩到neural的结点 SFT：初步学会问答 RL：和人类的偏好对齐经过上述三步骤后，LLM的效果会有很大提升，然鹅还是摆脱不了目前的一大困境：本质还是个st 阅读全文

posted @ 2025-06-30 14:52 第七子007 阅读(117) 评论(0) 推荐(0)

第七子007

公告