LLM 主要类别与架构全景解析

自 2017 年《Attention Is All You Need》论文提出 Transformer 架构以来,大语言模型(LLM)基于这一核心框架衍生出三大主流类别 ——自编码模型(Encoder-Only)、自回归模型(Decoder-Only)、序列到序列模型(Encoder-Decoder)。不同类别通过对 Transformer 编码器、解码器模块的选择性使用,适配不同的自然语言处理(NLP)任务(如理解、生成、转换)。本文将系统梳理各类别模型的核心架构、代表模型、训练逻辑与应用场景,并聚焦当前 LLM 的主流选择 ——Decoder-Only 架构的优势。

一、LLM 主要类别概览

LLM 的分类本质是对 Transformer 核心模块(Encoder/Decoder)的组合与取舍,三类模型的技术路线与任务定位差异显著,共同构成了 NLP 技术生态的核心框架。

1.1.分类依据与核心差异

LLM 的分类完全基于对 Transformer 架构中 “编码器(Encoder)” 和 “解码器(Decoder)” 的使用方式,具体差异如下表所示:

模型类别核心模块组合核心特征典型任务场景代表模型
自编码模型 仅使用 Encoder 双向注意力,擅长捕捉上下文语义关联,聚焦 “语言理解” 文本分类、情感分析、问答 BERT、RoBERTa、ALBERT、DeBERTa
自回归模型 仅使用 Decoder 单向注意力,从左到右生成文本,聚焦 “语言生成” 长文本生成、摘要、对话 GPT 系列(GPT-1/2/3/4)、OPT、BLOOM
序列到序列模型 同时使用 Encoder+Decoder 结合双向理解与单向生成能力,聚焦 “序列转换” 机器翻译、文本摘要(生成式) T5、BART、Pegasus

1.2.发展时间线

三类模型的演进呈现 “从理解到生成,再到统一转换” 的趋势,关键节点如下:
  • 2018 年:自编码模型代表 BERT、自回归模型代表 GPT-1 先后推出,分别奠定 “NLU(自然语言理解)” 与 “NLG(自然语言生成)” 的技术基础;
  • 2019 年:序列到序列模型 T5、BART 推出,尝试用 “文本到文本” 统一所有 NLP 任务;
  • 2020-2023 年:自回归模型(如 GPT-3、GPT-4、OPT)凭借强大的生成能力成为 LLM 主流,Encoder-Decoder 模型则在特定转换任务(如翻译)中保持优势。

二、自编码模型(Autoencoder, AE):聚焦语言理解

自编码模型(又称 Encoder-Only 模型)的核心是利用 Transformer 编码器的双向注意力,学习文本的全局语义表示,主要用于需要 “深度理解上下文” 的 NLP 任务。其代表模型 BERT 是 NLP 发展史上的里程碑,彻底改变了语言理解任务的技术路线。

2.1.核心定义与定位

自编码模型的本质是 “通过‘破坏 - 重建’输入文本,学习通用语义表示”:在输入中随机掩盖(MASK)部分 token,模型通过双向上下文预测被掩盖的 token,最终将 Encoder 的输出作为文本的语义向量,用于下游理解任务。
核心定位:专注自然语言理解(NLU),如文本分类、情感分析、提取式问答等,不擅长长文本生成任务。

2.2.代表模型:BERT(Bidirectional Encoder Representations from Transformers)

BERT 由 Google AI 于 2018 年 10 月提出,首次将 “双向 Transformer” 用于预训练,在 11 项 NLP 任务中刷新 SOTA(如 SQuAD 阅读理解超越人类水平),成为 NLU 任务的基准模型。

(1)BERT 核心架构

BERT 的架构分为三层,从下到上依次为 “嵌入层(Embedding)→ 双向 Transformer 层 → 预微调层”,整体仅使用 Transformer 的 Encoder 模块,完全舍弃 Decoder:
架构模块核心功能与细节
Embedding 模块 由三类嵌入张量叠加而成,为输入文本提供 “词、句子、位置” 三维信息: - Token Embeddings:词嵌入,首个 token 固定为 [CLS](用于分类任务); - Segment Embeddings:句子分段嵌入(区分输入中的两个句子,如 “句子 A / 句子 B”); - Position Embeddings:位置编码(学习文本中 token 的顺序信息)。
双向 Transformer 模块 基于原始 Transformer Encoder,核心是 “双向多头注意力”: - 每个 token 可同时关注左右两侧的上下文(如预测 “[MASK]” 时,同时利用左侧 “my dog is” 和右侧 “and cute”); - 标准 BERT 包含 12 层 Transformer Encoder,每层含 12 个注意力头,特征维度 768。
预微调层 根据下游任务灵活调整输出层: - 分类任务(如情感分析):取 [CLS] token 的隐藏状态,加全连接层 + Softmax; - 问答任务(如 SQuAD):输出 “答案起始位置” 和 “答案结束位置” 的概率; - 序列标注任务(如 NER):对每个 token 的隐藏状态做分类。

(2)BERT 预训练任务

BERT 通过两项自监督预训练任务,确保模型学习到通用语义表示:
  1. Masked Language Model(MLM,掩码语言模型)
    • 任务逻辑:随机选择输入中 15% 的 token 进行 “掩码处理”,模型根据双向上下文预测原 token;
    • 掩码规则:
      • 80% 概率用 [MASK] 替换(如 “my dog is cute”→“my [MASK] is cute”);
      • 10% 概率用随机 token 替换(如 “my cat is cute”);
      • 10% 概率保持原 token 不变(如 “my dog is cute”);
    • 目的:避免模型依赖 “[MASK]” 标记,同时强制模型学习上下文语义关联。
  2. Next Sentence Prediction(NSP,下一句话预测)
    • 任务逻辑:输入句子对(A, B),模型预测 B 是否为 A 的真实下一句话;
    • 数据构造:
      • 50% 正样本:B 是 A 的真实下一句(标记为 IsNext);
      • 50% 负样本:B 是随机抽取的句子(标记为 NotNext);
    • 目的:让模型学习句子间的逻辑关联(如因果、转折),适配问答、自然语言推理等任务。

(3)BERT 数据集与关键参数

  • 训练数据集:BooksCorpus(8 亿词,含数千本图书)+ English Wikipedia(25 亿词),确保数据的高质量与多样性;
  • 关键参数(标准 BERT-Base):
参数取值
Transformer 层数 12
特征维度(Hidden Size) 768
注意力头数 12
总参数量 1.15 亿

3. 自编码模型的优缺点

类别具体表现
优点

1. 双向注意力捕捉全局语义更全面,在 NLU 任务(如情感分析、问答)中表现远超传统模型;

2. 预训练语义向量可迁移性强,下游任务微调成本低;

3. 并行化效率高(Transformer 架构支持 GPU 并行计算)。

缺点

1. 输入噪声问题:预训练的 “MASK” 标记在下游任务中不存在,导致 “预训练 - 微调” 存在分布差异;

2. 不擅长生成任务:双向注意力无法支持 “从左到右” 的连贯文本生成;

3. 长文本处理能力有限(标准 BERT 最大序列长度 512,难以处理超过 1000 词的文本)。

三、自回归模型(Autoregressive, AR):聚焦语言生成

自回归模型(又称 Decoder-Only 模型)的核心是利用 Transformer 解码器的单向注意力,从左到右生成文本—— 每个 token 的生成仅依赖前文信息,不依赖后文,因此在长文本生成、对话等任务中表现突出。其代表模型 GPT 系列(GPT-1/2/3/4)是当前 LLM 的主流技术路线。

3.1.核心定义与定位

自回归模型的本质是 “通过‘预测下一个 token’的任务,学习文本生成的规律”:给定前文序列(如 “my favorite animal is”),模型基于 Transformer Decoder 预测下一个最可能的 token(如 “a”),不断迭代生成完整文本。
核心定位:专注自然语言生成(NLG),如长文本创作、对话机器人、代码生成等,同时支持少量理解任务(需微调)。

3.2.代表模型:GPT(Generative Pre-trained Transformer)

GPT 由 OpenAI 于 2018 年 6 月提出,历经 GPT-1 到 GPT-4 的迭代,参数量从 1.17 亿增至千亿级,逐步实现 “通用语言生成” 能力。以下以 GPT-1 为基础,解析自回归模型的核心架构与训练逻辑。

(1)GPT 核心架构

GPT 的架构基于 Transformer Decoder,但做了关键简化 ——移除经典 Decoder 中的 “Encoder-Decoder Attention” 子层,仅保留 “掩码多头注意力(Masked Multi-Head Attention)” 和 “前馈网络(Feed Forward)”,确保生成过程的单向性:
架构模块核心功能与细节
Text & Position Embedding 与 BERT 类似,包含 “词嵌入(We)” 和 “位置编码(Wp)”,但无 “句子分段嵌入”(早期 GPT 不处理句子对任务); - 词嵌入维度:768(与特征维度一致); - 位置编码:学习式位置编码(非正弦编码),形状为 [max_seq_len, embedding_dim]。
Decoder Block(12 层) 每层包含两个核心子层,且引入 “Pre-LayerNorm”(层归一化前置): 1. Masked Multi-Head Attention: - 掩码机制:确保生成 token i 时,仅关注前 i-1 个 token(如生成 “cute” 时,仅利用 “my dog is”),避免泄露后文信息; - 12 个注意力头,捕捉不同维度的前文关联; 2. Feed Forward:两层全连接网络,激活函数为 GELU,对注意力输出做非线性变换。
Prediction Layer 输出层为 “全连接层 + Softmax”: - 输入:最后一层 Decoder Block 的隐藏状态(ht); - 输出:下一个 token 的概率分布(P (u) = Softmax (ht・Wt^T),其中 Wt 为输出权重矩阵)。

(2)GPT 训练过程:“预训练 + 微调” 两阶段

GPT 的训练分为 “无监督预训练” 和 “有监督微调”,确保模型先学习通用语言规律,再适配具体任务:

  1. 第一阶段:无监督预训练(Pre-training)
    • 任务目标:最大化 “预测下一个 token” 的似然函数,学习语言生成规律;
    • 数学表达:给定句子 U = [u1, u2, ..., un],目标函数为: \(L_1(U) = \sum_{i=k+1}^n \log P(u_i | u_{i-k}, ..., u_{i-1}; \Theta)\) 其中 k 为上下文窗口大小(GPT-1 中 k=512),\(\Theta\)为模型参数;
    • 数据:BooksCorpus 数据集(7GB,含 11000 本独立书籍,7400 万 + 句子),确保模型学习长距离文本关联。
  2. 第二阶段:有监督微调(Fine-tuning)
    • 任务目标:针对下游任务(如文本分类、问答),用有标注数据调整模型参数;
    • 过程:
      • 输入:任务专属序列(如分类任务的 “文本 + 标签”,问答任务的 “问题 + 段落 + 答案”);
      • 目标函数:最大化任务标签的似然函数 \(L_2 = \sum_{(X,y)} \log P(y | X; \Theta)\)(X 为输入序列,y 为标签);
      • 最终优化目标:\(L_{total} = L_2 + \lambda L_1\)(\(\lambda\)为权重,平衡预训练与微调);
    • 适配方式:对不同任务定义专属输入格式(如问答任务输入 “Question: [问题] Context: [段落]”),并增加任务特定分类层。

(3)GPT 数据集与关键参数

  • 训练数据集:BooksCorpus(7GB,含 11000 本图书,未开源,确保泛化能力);
  • 关键参数(GPT-1):
参数取值
Transformer Decoder 层数 12
特征维度(Hidden Size) 768
注意力头数 12
总参数量 1.17 亿

3. 自回归模型的优缺点

类别具体表现
优点

1. 长文本生成能力强:单向生成逻辑符合人类阅读习惯,可连贯生成数千词的文本(如小说、报告);

2. 任务适配灵活:通过 “提示学习(Prompting)” 可支持零样本 / 少样本任务(如 GPT-3 的情境学习);

3. 并行化效率高:Decoder 架构支持部分并行计算,训练与推理速度优于 Encoder-Decoder 模型。

缺点

1. 单向注意力局限:无法利用后文信息,可能导致生成内容逻辑矛盾(如前文说 “喜欢猫”,后文说 “讨厌宠物”);

2. 早期模型依赖微调:GPT-1 需为每个任务单独微调,成本较高(GPT-2/3 后通过零样本 / 少样本解决);

3. 生成速度慢:文本需逐 token 生成,无法并行(如生成 1000 词需 1000 步计算)。

四、序列到序列模型(Sequence-to-Sequence, Seq2Seq):聚焦序列转换

序列到序列模型(又称 Encoder-Decoder 模型)的核心是结合 Transformer 的 Encoder(双向理解)与 Decoder(单向生成),将 “输入序列” 转换为 “输出序列”,适配需要 “先理解、再生成” 的任务(如机器翻译、生成式摘要)。其代表模型 T5(Text-to-Text Transfer Transformer)提出 “文本到文本” 的统一框架,尝试用单一模型解决所有 NLP 任务。

4.1.核心定义与定位

序列到序列模型的本质是 “将所有 NLP 任务统一为‘输入文本→输出文本’的转换问题”:无论任务类型(翻译、摘要、问答),均通过 Encoder 理解输入文本,再通过 Decoder 生成目标输出文本。
核心定位:专注“序列转换”任务,如机器翻译(英文→中文)、生成式摘要(长文本→短摘要)、多模态转换(文本→图像),兼顾理解与生成能力。

4.2.代表模型:T5(Text-to-Text Transfer Transformer)

T5 由 Google 于 2020 年提出,核心思想是 “用文本到文本的统一格式处理所有 NLP 任务”,通过大规模预训练与多任务微调,成为序列到序列模型的基准。

(1)T5 核心架构

T5 的架构基于原始 Transformer 的 Encoder-Decoder,但做了两处关键优化,提升训练效率与模型表达能力:
架构模块核心功能与细节
Encoder 模块 基于 Transformer Encoder,采用 “简化版 Layer Normalization”: - 移除 Layer Norm 的偏置(Bias),减少参数数量; - 将 Layer Norm 放在残差连接外侧(原始 Transformer 在内侧),提升训练稳定性; - 双向注意力,负责理解输入文本的全局语义(如翻译任务中理解英文输入 “my dog”)。
Decoder 模块 基于 Transformer Decoder,核心优化是 “相对位置编码”: - 位置编码为标量,直接加到注意力权重的 logits 上,而非与词嵌入叠加; - 各层共享位置编码,但同一层内不同注意力头的位置编码独立学习; - 单向注意力(掩码机制)+ Encoder-Decoder Attention(关注 Encoder 输出的语义信息),负责生成目标序列(如翻译任务中生成中文 “我的狗”)。
统一文本格式 所有任务均转换为 “输入文本→输出文本”: - 翻译任务:输入 “translate English to Chinese: my dog” → 输出 “我的狗”; - 摘要任务:输入 “summarize: [长文本]” → 输出 “[短摘要]”; - 问答任务:输入 “answer: [问题] context: [段落]” → 输出 “[答案]”。

(2)T5 预训练任务

T5 的预训练采用 “自监督 + 多任务监督” 结合的方式,确保模型同时具备通用能力与任务适配性:
  1. 自监督预训练任务
    • 包含两类核心任务,兼顾理解与生成:
      • Masked Language Modeling(MLM,填空任务):与 BERT 类似,随机掩码输入 token,模型预测原 token(如 “my [MASK] is cute”→“my dog is cute”);
      • Causal Language Modeling(CLM,因果语言建模):与 GPT 类似,从左到右预测下一个 token(如 “my dog is”→“cute”);
    • 目的:让模型同时掌握 “上下文理解” 与 “文本生成” 能力。
  2. 多任务监督微调
    • 任务覆盖:SQuAD 问答、机器翻译(WMT)、文本分类(GLUE)等 10 + 类 NLP 任务;
    • 过程:用有标注的任务数据微调预训练模型,进一步提升模型在特定任务上的性能;
    • 优势:通过多任务学习,模型可在不同任务间迁移知识(如翻译任务的语言规律可辅助摘要任务)。

(3)T5 数据集与关键参数

  • 训练数据集:C4(Colossal Clean Crawled Corpus),由 Common Crawl 网页数据过滤得到(移除重复、低质量、非英文文本),规模达数万亿词;
  • 关键参数(T5-Base):
参数取值
Transformer 层数(Encoder+Decoder) 24(各 12 层)
特征维度(Hidden Size) 768
注意力头数 12
总参数量 2.2 亿

4.3.序列到序列模型的优缺点

类别具体表现
优点

1. 任务覆盖广:可统一处理理解、生成、转换类任务,扩展性强;

2. 转换能力突出:在机器翻译、生成式摘要等任务中,表现优于单一 Encoder/Decoder 模型;

3. 参数量效率高:相比同等参数量的自回归模型(如 GPT-2),T5 在多任务上性能更优。

缺点

1. 训练成本高:Encoder+Decoder 架构参数量大(如 T5-XXL 达 1100 亿参数),需更大算力;

2. 推理速度慢:Decoder 逐 token 生成,且需与 Encoder 交互,效率低于 Decoder-Only 模型;

3. 可解释性差:Encoder 与 Decoder 的交互过程复杂,难以追溯生成结果的逻辑来源。

五、LLM 主流架构:为何选择 Decoder-Only?

当前主流 LLM(如 GPT-4、Claude、Gemini)均采用 Decoder-Only 架构,而非 Encoder-Decoder 或 Encoder-Only。这一选择不仅基于工程效率,更有理论层面的核心优势。

5.1.核心优势:效率与能力的平衡

(1)训练与推理效率更高

  • 参数量等效性:Encoder-Decoder 模型的参数量需翻倍(如 Encoder 100 亿 + Decoder 100 亿)才能达到与 Decoder-Only 模型(200 亿)相近的性能;在同等参数量下,Decoder-Only 模型的训练成本更低(少一个模块的计算);
  • 推理并行性:Decoder-Only 模型的前向计算仅需处理 Decoder 模块,而 Encoder-Decoder 需先运行 Encoder 再运行 Decoder,推理速度慢 30%~50%(尤其长文本生成场景)。

(2)理论层面:双向注意力的 “低秩问题”

  • Encoder 的双向注意力虽能捕捉全局语义,但会导致注意力矩阵的 “低秩化”—— 不同 token 的注意力权重差异减小,削弱模型的表达能力;
  • 生成任务中,单向注意力(Decoder)可更好地建模 “文本序列的因果关系”(如 “因为下雨,所以带伞”),而双向注意力引入的 “后文信息” 对生成逻辑无实质帮助,反而增加噪声。

(3)任务适配灵活性更强

  • Decoder-Only 模型通过 “提示学习(Prompting)” 可支持零样本 / 少样本任务(如 GPT-3 的情境学习),无需修改模型结构;
  • Encoder-Decoder 模型需为特定任务设计 “Encoder 输入格式 + Decoder 输出格式”,灵活度低于 Decoder-Only;
  • 典型案例:GPT-4 通过单一 Decoder-Only 架构,可同时支持对话、代码生成、数学推理、多模态理解,而同等能力的 Encoder-Decoder 模型(如 T5-XXL)需大量任务专属微调。

5.2.适用场景验证

Decoder-Only 架构在当前 LLM 的核心场景中表现最优:
  • 对话交互:需连贯记忆上下文,单向生成逻辑符合人类对话习惯(如 ChatGPT);
  • 长文本生成:可生成数万词的报告、小说,Encoder-Decoder 模型因 Encoder 序列长度限制难以实现;
  • 代码生成:需严格遵循语法的因果逻辑(如 “定义函数→调用函数”),单向注意力更适配。

六、核心问题与答案总结

为便于快速回顾,以下整理本文核心问题的标准答案,覆盖 LLM 类别、架构、预训练任务等关键知识点:

核心问题答案
1. LLM 主要类别架构有哪些? 三类:Encoder-Only(自编码模型)、Decoder-Only(自回归模型)、Encoder-Decoder(序列到序列模型)。
2. 自编码模型的基本原理是什么? 在输入中随机 MASK 部分单词,模型通过双向上下文预测被 MASK 的词,聚焦语言理解任务。
3. BERT 的核心架构与预训练任务是什么? 架构:Transformer 的 Encoder 模块(含 Embedding、双向 Transformer、预微调层); 预训练任务:MLM(掩码语言模型)+ NSP(下一句话预测)。
4. 自回归模型的基本原理是什么? 从左到右学习文本,仅利用上文信息预测下一个 token,聚焦语言生成任务。
5. GPT 的核心架构与预训练任务是什么? 架构:Transformer 的 Decoder 模块(移除 Encoder-Decoder Attention,含 12 层 Decoder Block); 预训练任务:无监督预训练(预测下一个 token)+ 有监督任务微调。
6. 序列到序列模型的基本原理是什么? 同时使用 Encoder(理解输入)和 Decoder(生成输出),将每个任务视作 “序列到序列的转换”,聚焦转换任务。
7. T5 的核心架构与预训练任务是什么? 架构:Transformer 的 Encoder-Decoder(简化 Layer Norm、相对位置编码); 预训练任务:MLM(填空)+ CLM(因果语言建模)+ 多任务监督微调。
8. LLM 为何主流选择 Decoder-Only 架构? 1. 训练 / 推理效率高(同等参数量下成本更低); 2. 无双向注意力的低秩问题,表达能力更强; 3. 任务适配灵活(支持零样本 / 少样本学习)。

七、总结

LLM 的三类架构(Encoder-Only、Decoder-Only、Encoder-Decoder)分别对应 “理解、生成、转换” 三大核心任务,共同构成了 NLP 技术的完整版图。自编码模型(如 BERT)奠定了语言理解的基础,序列到序列模型(如 T5)在转换任务中保持优势,而 Decoder-Only 架构(如 GPT 系列)凭借 “效率、能力、灵活度” 的三重优势,成为当前 LLM 的主流选择。
未来,随着多模态技术的发展(如 GPT-4V、Gemini),Decoder-Only 架构可能进一步融合图像、音频等模态的理解能力,而 Encoder-Decoder 模型则可能在特定垂直领域(如专业机器翻译)持续优化。但无论技术路线如何演进,对 Transformer 核心模块的深刻理解,仍是掌握 LLM 架构设计的关键。
posted @ 2025-08-27 17:40  酒剑仙*  阅读(434)  评论(0)    收藏  举报