LLM大模型：reasoning model没有思考能力，大模型泡沫破灭？

　　这轮AI热潮起于2022.10月chatGPT 3.5的发布，其智能程度颠覆了以往任何同类产品，一下就引爆了关注！后来持续迭代，又率先提出了COT的模式：在正式回答问题前先think一段，根据整个思考的过程再给出最终的答案，这就是o1；尽管LLM的效果是越来越好，但还是有人跳出来“唱反调”，吐槽LLM并不是真正的AGI，也无法通往AGI，这里面最出名的就是Yann LeCun了，他一针见血地指出：LLM本质就是个statistic model，完全没有人类的思考能力，即使加上了reinforcement learning（DPO/PPO/GRPO等），也只是增加了正确答案出现的概率（或则说是正确路径被采样的概率增加），但并未从根本上解决问题；对于Yann LeCun大佬的观点，我个人是认同的：transformer架构和以前的word2vector、RNN、LSTM相比，确实有breakthrough进展，核心的就是attention机制：通过计算token之间的距离作为weight，把前面token的value语义写入后续的token，由此得到了较为精准的语义表达，最终得到embedding！这种机制和人脑思考的完全不同，为了弥补hallucination等缺陷，又采取了多种reinforcement learning来弥补，性能确实有一定的提升，但还远未达到人类的智力水平，所以部分网友对于LLM的评价：创造力不足，但是记忆力好（训练预料的信息都被压缩到Nerual节点了嘛）！所以简单的问题可以找LLM提供答案，复杂的问题只能自己拆解成多个简单的问题，然后再让LLM回答了！所以LLM的能力边界到底在哪？

　　1、近日，apple研究人员发了一篇论文：The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 通过设置不同复杂度的问题，测试出了reasoning model的Strengths和Limitations.

　 large reasoning model的训练，最常用的就是math和code数据集，用这两个也容易理解：结果好验证，reward信号很准确。但只用这两类数据，缺陷也是有的：

pre-train的时候可能已经用过了测试的数据集，也就是data contamination，并且也没法控制环境的复杂度。model的思考过程cot有没有啥问题了，也没有很好地研究过；
model性能随着问题复杂度是怎么变化的？这种变化在reasoning和non-reasoning之间怎么区别？reasoning局限性在哪？想进一步提高的改进方向在哪？
reasoning是否有generalization的能力？或者说只是pattern matching？

　　先说第一个data contamination问题，对比如下：

math-500：小学水平的数学题，比较简单，所以model是否thinking，是否reasoning的区别不大，性能几乎是一样的
AIME24：高中奥数水平，较难；thinking的效果明显比no-thinking要好，gap还是很大的！
AIME25：human performance是比AIME24好的，说明AIME25比AIME24要简单，但为啥thinking和no-thinking的gap居然变大了？按照在match-500上的经验，gap不应该变小么？可能是data contamination： LLM训练的时候使用了AIME24，但没使用过AIME 25，25的数据没泄露；

　　基于以上原因，研究reasoning的时候可以使用puzzle，好处在于：complexity复杂度是可以精准控制的，所以不用担心data contamination的问题！

　　2、hanoi tower问题都知道吧，尤其是计算机科班出身的人，在学递归编程时必学这个！hanoi最大的优点就是可以灵活、精准地控制复杂度：增加或减少disk的数量即可！

　　研究人员测试的结果展示如下：

当disk数量<=3的时候，thinking和no-thinking的准确率是一样的，没任何区别；thinking的回答长度比no-thinking长很多，这里就有明显的over thinking了；再观察position within thoughts发现，在出现correction solutions时，token的position已经接近0.6了，也就是前面60%的token都是铺垫，直到60%的地方才出现correct答案，这也印证了现在的LLM有over thinking的毛病，这些问题耗费了大量算力，最终都肥了NVIDIA这类硬件厂家......
4=< disk <= 9的时候，thinking和no-thinking的准确率都断崖下跌，不过thinking的准确率任然好于no-thinking；然而thinking性能提升也是有代价的：response length也是成倍地增长！position within thoughts最高涨到了接近0.8，也就是说thinking产生的token，前面80%都没卵用，产生了大量的浪费.......
disk>=10：这才是最炸裂的！复杂度达到一定程度是，是否thinking已经不重要了，因为准确率都一样啦，直接降到0，所以在position within thoughts中这段数据直接没啦！

　　这个测试说明：目前即使经过reinforcement learning训练后的LLM，在遇到非常复杂的任务时，准确率仍然很低，说明reinforcement learning的generalization能力有限！为了进一步证实这个猜想，研究人员还做了其他类型的puzzle，如下：

　　表现和hanio一样：复杂到一定程度后，thinking和non-thinking已经没本质区别了！也应证了上面的观点：任务复杂到一定程度，reinforcement learning也无力回天！

　　3、和上面的结论一下：简单环境下thinking和non-thinking没区别！复杂环境直接“躺平”不干了！只有在中间难度的环境下thinking比non-thinking有较大优势！

　　4、复杂度达到一定的threshold，model直接collapses！

　　5、总结：

reinforcement learning不是万能的，但在media level下，thinking相比non-thinking还是有优势的！
虽说LLM不是人类的思维方式，但截止目前效果的提升是有目共睹的！人在遇到新问题时，第一反应就是回溯自己以前有没有遇到过类似的问题，从以前的经验中找答案，这不也是一种pattern matching么？不管LLM用哪种reasoning方式，只要效果好就行了嘛！

参考：

1、https://www.bilibili.com/video/BV195TrzzEvx/?spm_id_from=333.337.search-card.all.click&vd_source=241a5bcb1c13e6828e519dd1f78f35b2

2、https://www.arxiv.org/abs/2506.06941 The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

3、https://garymarcus.substack.com/p/a-knockout-blow-for-llms A knockout blow for LLMs?

4、https://www.anthropic.com/research/tracing-thoughts-language-model Tracing the thoughts of a large language model

posted @ 2025-06-13 18:25 第七子007 阅读(224) 评论(0) 收藏举报

刷新页面返回顶部

第七子007

LLM大模型：reasoning model没有思考能力，大模型泡沫破灭？

公告