LLM大模型：next token reasoning成为下个阶段LLM的训练范式？

　　目前LLM的训练范式不外乎这么几步：pre-train、SFT、RL，每个步骤都有自己的作用，比如：

pre-train：把训练预料的知识压缩到neural的结点
SFT：初步学会问答
RL：和人类的偏好对齐

　　经过上述三步骤后，LLM的效果会有很大提升，然鹅还是摆脱不了目前的一大困境：本质还是个statistic model，原理还是根据上文预测next token的概率，也就是所谓的next token predict，这也是被Yann LeCun这种大佬吐槽最多的点！这种局面能彻底改善么？

　　1、众所周知，目前LLM在RL阶段最常用的两种方式：

RLHF：根据人类反馈“定向”训练LLM，比如DPO\PPO等；
- 需要一个reward model评判训练LLM输出的结果是否正确，容易被LLM转空子，就是所谓的reward hacking！
RLVR：自己摸索过程，给出最终的结果，让rule判断是否正确，比如deepseek R1的GRPO
- 需要大量annotated data，否则无法确定reward信号，导致目前只能在math、code等narrow domain使用（容易基于rule判定reward信号）！

　　这里打个岔，顺便说一句： LLM有的时候指令遵从不好，可以用RL反复微调，让neural的weight适应训练预料，但这样做也有trade off：其他指令遵从能力可能会下降，所以适用于垂直领域的任务，不太适合通用任务！

　　2、回到目前LLM的本质：next token predict，核心是根据上文预测next token的概率，是个概率统计模型，怎么改变这一点了？近期清华、北大、微软的研究员借鉴COT的思路，提出了新的思路：Reinforcement Pre-Training，核心方案就是在做next token预测的时候加上reasoning，图示如下：

　　传统的COT：LLM在正式回答前有think阶段，think完成后才是正式的answer。think阶段做的核心工作：用户的意图理解、任务分解、context关联、信息检索、综合整理等，这些都做完后才是最终的answer，所以在answer之前，做了大量的准备工作，在一定程度上提升了准确率！既然answer的时候可以这么干，那么next token预测的时候不也能这么干么？所以就产生了：next token reasoning的方法！如上图所示，在产生next token的时候，先做reasoning，再输出最终的next token！这个思路也是模拟人的方式：讲话前先过脑子，想清楚了再说！

　　3、具体到实施，还是有些trick的：

要想LLM遵从reasoning的格式，目前最好的方法就是做RL了，作者团队采用的就是deepseek R1同款的GRPO；
- 因为最终的结果很明确，中间过程可以让LLM自己exploration，所以这种scenario特别适合GRPO这种RL的算法！
回答的token数量很多，如果每个token都做reasoning，计算量要上天，怎么在保证回答准确率的前提下减少计算量了？回顾一下传统的COT：遇到复杂任务的时候用reasoning提升准确率，普通的简单任务属实没必要了！思路横向迁移到这里：
- 如果next token的概率分布比较集中，说明可选范围小，这种情况直接选概率最大的，比如概率分布[0.6,0.1,0.05,0.09......]， 0.6的概率明显大很多，这种情况直接选0.6的token
- 如果next token的概率分布比较平均，可选范围很大，比如[0.2,0.21,0.18,0.19.....] 这种情况怎么办了？这就需要用到reasoning的方法了：在选择next token之前先仔细thinking一下，再决定token选哪个！
- 概率分布是集中还是平均，可以用entropy来计算：entropy越小，说明概率分布越离散，需要reasoning，否则直接让LLM生成就行了！
为了让LLM有更好的generalization的性能，每次需要LLM生成multi token的reasoning，让LLM学到上文和next token之间的关系更加泛华、鲁棒，然后选择正确的一个，图示如下：

　　这种思路和deepseek R1的训练其实没本质区别：

使用的都是GRPO算法
唯一表面的区别就是reasoning的颗粒度不同：这里是针对token级别的reasoning，R1是针对整个回答的

　　4、效果展示：使用NTR next token reasoning后，准确率都有所提升！尤其是右边的对比：14B模型使用NTR训练后，准确率直逼32B，在一定程度上打破了scaling law？

参考：

1、https://arxiv.org/pdf/2506.08007

2、https://www.bilibili.com/video/BV1z1KZzbENE/?spm_id_from=333.337.search-card.all.click&vd_source=241a5bcb1c13e6828e519dd1f78f35b2

posted @ 2025-06-30 14:52 第七子007 阅读(117) 评论(0) 收藏举报

刷新页面返回顶部

第七子007

LLM大模型：next token reasoning成为下个阶段LLM的训练范式？

公告