从 Transformer 到 Reasoning：大模型技术主线梳理

一、大模型到底在干嘛？

大模型本质上是在根据前文，预测下一个 token 最可能是什么。

所以它首先不是数据库，也不是规则引擎，而是一个超大号的概率续写器。

第一，为什么它这么强。
因为只要你让它在足够大量的文本、代码、图像描述上，持续做这种“下一个 token 预测”，它就会慢慢学会语言规律、结构模式、知识共现、风格习惯，甚至一部分推理能力。

第二，为什么它会胡说。
因为它首先是在生成“最像答案的东西”，而不是在查一个绝对正确的知识库。

所以你可以把它理解成输入法的终极升级版，只不过它预测的不是下一个字，而是整段话、整段代码，甚至一条推理路径。

二、Transformer + self-attention

Transformer 模型是一种基于自注意力机制的神经网络架构，2017 年由谷歌在论文《Attention Is All You Need》中提出。它可以说是当前几乎所有大语言模型（如GPT、Gemini）的基石。

它的核心思想可以用一句话概括：“看一句话时，同时关注这句话里所有词的关系”。

为了让你更直观地理解，这里把它和过去的方法做个对比：

传统模型（如RNN）：像逐字阅读，必须按顺序看完前一个字才能看下一个，效率低且容易遗忘开头的信息。
Transformer：像一眼扫过整张图，同时看到所有文字，并能瞬间计算出每个词与其他词的相关性（比如“他”指的是“小明”）。

它的核心创新主要有两点：

自注意力机制：这是它最大的特点。通过计算序列中所有元素两两之间的相关性，模型能更好地理解上下文。比如在“苹果手机”中，它能判断出“苹果”指的不是水果。
并行计算：因为是一眼看完所有数据，它可以同时进行海量计算，极大提升了训练效率，这也是它能吃下海量数据成为大模型的基础。

可以用一个简单的比喻来理解：自注意力机制就像给模型装上了一盏“聚光灯”，让它在一句话里，动态地决定该重点“看”哪些词。

举个例子，处理“我今天早上路过银行”这句话时：

1.词嵌入：首先，模型会把句子里的每个词转换成向量（一组数字）。这些向量只包含词语本身的意思，比如“银行”可能是金融机构，也可能是河岸。

2.计算相关性：模型会让所有词互相对话，计算彼此之间的关联分数。当模型读到“路过”这个词时，它会去计算“路过”和句子中所有其他词（“我”、“今天”、“早上”、“银行”）的相关性。

3.加权合成：模型会根据计算出的相关性分数，重新生成每个词的新向量。对于“银行”这个词的新向量，它由两部分组成：大部分来自“银行”本身的意思，但会从“路过”那里吸收很多信息。

这样一来，“银行”这个词在模型内部的新表示，就包含了“这是一个可以被路过的地点”这层含义。如果是“我存了100万到银行”，那“银行”就会从“存了”那里吸收信息，最终倾向于金融机构的意思。

所以，自注意力机制的核心操作，就是让序列中的每一个元素，都通过加权求和的方式，融合其他所有元素的信息，从而得到一个蕴含完整上下文感知的新表示。

这就是它能解决传统模型长距离信息遗忘问题的原因。

Scaling Laws + pre-train

Scaling law 最通俗的讲法是：

如果模型、数据、算力按合适比例一起增长，模型能力通常会比较稳定地提升。

总的来说，Scaling Laws揭示了现代大语言模型成功的一个朴素道理：“大力可以出奇迹”，通过可预测的方式扩大规模，是提升模型智能水平的一条有效路径。

它让大家开始相信，模型能力不是玄学，而是可以靠规模化工程稳定逼近出来的。

Thinking + Reasoning

thinking 不是模型突然有了意识，而是它学会了在难题上多花一点推理预算。

具体来说，它会：

先列中间步骤
尝试多条路径
自己检查
借助工具
再决定输出什么

这时就要引出另一个重要词：test-time compute（推理时计算量）。

它指的不是训练时花了多少算力，而是模型在真正回答这道题时，到底愿意再花多少计算资源去想。

所以它关注的是：

回答这道题时，模型跑了多少步
有没有生成中间推理过程
会不会尝试多个候选解再挑一个
会不会调用工具、执行代码、做验证
遇到难题时，是否愿意花更多计算资源，而不是立刻给一个直觉答案

所以最近几年模型竞争的一个明显变化是：

以前更多在比谁在训练阶段学进去更多；
现在越来越多开始比，谁在推理阶段更会把计算花在真正困难的问题上。

为什么上下文 Token 不能无限增大？

很多人会自然想到：

既然上下文越长，模型看到的信息越多，为什么不把上下文一直加大？

核心原因和 Transformer 的主流注意力机制直接相关。

因为 attention 本质上要做一件事：

让每个 token 都去和其他 token 计算关系。

这意味着，如果序列长度是 n，计算和存储成本大致会跟 n² 一起增长。

这就是大家常说的二次方复杂度。

所以问题不是“能不能再加一点”，而是越往上加，成本会涨得非常夸张：

计算量过大（二次方复杂度）
注意力机制的计算量和显存占用，与输入序列长度的平方成正比。这意味着：

1万 token 的计算量是 1亿次（10⁸）
100万 token 的计算量是 1万亿次（10¹²）
10亿 token 的计算量是 1百亿亿次（10¹⁸）

从 100 万到 10亿，长度只增加了 1000 倍，计算量却增加了 100 万倍。目前最强的超算也无法负担如此巨大的计算开销。

显存装不下（内存瓶颈）
注意力机制运行中需要存储一个巨大的矩阵，其大小同样是长度 × 长度。

处理 100 万 token 时，需要存储一个 1万亿（10¹²）个参数的矩阵，这已需要海量的 GPU 集群用各种技巧（如稀疏化、混合精度）勉强容纳。
若扩展到 10亿 token，矩阵大小将变成 1百亿亿（10¹⁸）个参数。这个数据量远远超过了地球上所有存储设备的总和，根本存不下。

这也是为什么现在大家越来越重视检索、摘要、工具调用和外部记忆系统。

为什么数学和编程最先突破？

很多人会以为，数学和编程先突破，是因为它们最接近 AGI。

更准确的说法是：

因为它们最适合被“可验证推理”训练出来。

因为这两个领域有四个特点：

反馈清晰
规则强
可自动验证
容易形成闭环

代码能不能编译、能不能过测试，可以直接验。

数学题很多场景下也能判对错，甚至接验证器。

于是就引出一个特别关键的概念：RLVR（Reinforcement Learning with Verifiable Rewards，带可验证奖励的强化学习）。

不是让人类主观打分“这个回答好不好”，而是用一个可以客观检验的标准，直接判断答案对不对。

这件事为什么重要？

因为它给了模型一个特别干净的奖励信号。答对就奖励，答错就重来。

posted @ 2026-05-09 15:18 JMCui 阅读(32) 评论(0) 收藏举报

刷新页面返回顶部

JMCui