从 Transformer 到 Reasoning:大模型技术主线梳理

一、大模型到底在干嘛?

大模型本质上是在根据前文,预测下一个 token 最可能是什么。

所以它首先不是数据库,也不是规则引擎,而是一个超大号的概率续写器。

第一,为什么它这么强。
因为只要你让它在足够大量的文本、代码、图像描述上,持续做这种“下一个 token 预测”,它就会慢慢学会语言规律、结构模式、知识共现、风格习惯,甚至一部分推理能力。

第二,为什么它会胡说。
因为它首先是在生成“最像答案的东西”,而不是在查一个绝对正确的知识库。

所以你可以把它理解成输入法的终极升级版,只不过它预测的不是下一个字,而是整段话、整段代码,甚至一条推理路径。

二、Transformer + self-attention

Transformer 模型是一种基于自注意力机制的神经网络架构,2017 年由谷歌在论文《Attention Is All You Need》中提出。它可以说是当前几乎所有大语言模型(如GPT、Gemini)的基石。

它的核心思想可以用一句话概括:“看一句话时,同时关注这句话里所有词的关系”。

为了让你更直观地理解,这里把它和过去的方法做个对比:

  • 传统模型(如RNN):像逐字阅读,必须按顺序看完前一个字才能看下一个,效率低且容易遗忘开头的信息。
  • Transformer:像一眼扫过整张图,同时看到所有文字,并能瞬间计算出每个词与其他词的相关性(比如“他”指的是“小明”)。

它的核心创新主要有两点:

  • 自注意力机制:这是它最大的特点。通过计算序列中所有元素两两之间的相关性,模型能更好地理解上下文。比如在“苹果手机”中,它能判断出“苹果”指的不是水果。
  • 并行计算:因为是一眼看完所有数据,它可以同时进行海量计算,极大提升了训练效率,这也是它能吃下海量数据成为大模型的基础。

可以用一个简单的比喻来理解:自注意力机制就像给模型装上了一盏“聚光灯”,让它在一句话里,动态地决定该重点“看”哪些词。

举个例子,处理“我今天早上路过银行”这句话时:

1.词嵌入:首先,模型会把句子里的每个词转换成向量(一组数字)。这些向量只包含词语本身的意思,比如“银行”可能是金融机构,也可能是河岸。

2.计算相关性:模型会让所有词互相对话,计算彼此之间的关联分数。当模型读到“路过”这个词时,它会去计算“路过”和句子中所有其他词(“我”、“今天”、“早上”、“银行”)的相关性。

3.加权合成:模型会根据计算出的相关性分数,重新生成每个词的新向量。对于“银行”这个词的新向量,它由两部分组成:大部分来自“银行”本身的意思,但会从“路过”那里吸收很多信息。

这样一来,“银行”这个词在模型内部的新表示,就包含了“这是一个可以被路过的地点”这层含义。如果是“我存了100万到银行”,那“银行”就会从“存了”那里吸收信息,最终倾向于金融机构的意思。

所以,自注意力机制的核心操作,就是让序列中的每一个元素,都通过加权求和的方式,融合其他所有元素的信息,从而得到一个蕴含完整上下文感知的新表示。

这就是它能解决传统模型长距离信息遗忘问题的原因。

Scaling Laws + pre-train

Scaling law 最通俗的讲法是:

如果模型、数据、算力按合适比例一起增长,模型能力通常会比较稳定地提升。

总的来说,Scaling Laws揭示了现代大语言模型成功的一个朴素道理:“大力可以出奇迹”,通过可预测的方式扩大规模,是提升模型智能水平的一条有效路径。

它让大家开始相信,模型能力不是玄学,而是可以靠规模化工程稳定逼近出来的。

Thinking + Reasoning

thinking 不是模型突然有了意识,而是它学会了在难题上多花一点推理预算。

具体来说,它会:

  • 先列中间步骤
  • 尝试多条路径
  • 自己检查
  • 借助工具
  • 再决定输出什么

这时就要引出另一个重要词:test-time compute(推理时计算量)。

它指的不是训练时花了多少算力,而是模型在真正回答这道题时,到底愿意再花多少计算资源去想。

所以它关注的是:

  • 回答这道题时,模型跑了多少步
  • 有没有生成中间推理过程
  • 会不会尝试多个候选解再挑一个
  • 会不会调用工具、执行代码、做验证
  • 遇到难题时,是否愿意花更多计算资源,而不是立刻给一个直觉答案

所以最近几年模型竞争的一个明显变化是:

以前更多在比谁在训练阶段学进去更多;
现在越来越多开始比,谁在推理阶段更会把计算花在真正困难的问题上。

为什么上下文 Token 不能无限增大?

很多人会自然想到:

既然上下文越长,模型看到的信息越多,为什么不把上下文一直加大?

核心原因和 Transformer 的主流注意力机制直接相关。

因为 attention 本质上要做一件事:

让每个 token 都去和其他 token 计算关系。

这意味着,如果序列长度是 n,计算和存储成本大致会跟 一起增长。

这就是大家常说的二次方复杂度。

所以问题不是“能不能再加一点”,而是越往上加,成本会涨得非常夸张:

  1. 计算量过大(二次方复杂度)
    注意力机制的计算量和显存占用,与输入序列长度的平方成正比。这意味着:
  • 1万 token 的计算量是 1亿 次(10⁸)
  • 100万 token 的计算量是 1万亿 次(10¹²)
  • 10亿 token 的计算量是 1百亿亿 次(10¹⁸)

从 100 万到 10亿,长度只增加了 1000 倍,计算量却增加了 100 万倍。目前最强的超算也无法负担如此巨大的计算开销。

  1. 显存装不下(内存瓶颈)
    注意力机制运行中需要存储一个巨大的矩阵,其大小同样是 长度 × 长度。
  • 处理 100 万 token 时,需要存储一个 1万亿(10¹²)个参数的矩阵,这已需要海量的 GPU 集群用各种技巧(如稀疏化、混合精度)勉强容纳。
  • 若扩展到 10亿 token,矩阵大小将变成 1百亿亿(10¹⁸)个参数。这个数据量远远超过了地球上所有存储设备的总和,根本存不下。

这也是为什么现在大家越来越重视检索、摘要、工具调用和外部记忆系统。

为什么数学和编程最先突破?

很多人会以为,数学和编程先突破,是因为它们最接近 AGI。

更准确的说法是:

因为它们最适合被“可验证推理”训练出来。

因为这两个领域有四个特点:

  • 反馈清晰
  • 规则强
  • 可自动验证
  • 容易形成闭环

代码能不能编译、能不能过测试,可以直接验。

数学题很多场景下也能判对错,甚至接验证器。

于是就引出一个特别关键的概念:RLVR(Reinforcement Learning with Verifiable Rewards,带可验证奖励的强化学习)。

不是让人类主观打分“这个回答好不好”,而是用一个可以客观检验的标准,直接判断答案对不对。

这件事为什么重要?

因为它给了模型一个特别干净的奖励信号。答对就奖励,答错就重来。

posted @ 2026-05-09 15:18  JMCui  阅读(17)  评论(0)    收藏  举报