LLM 主要类别与架构全景解析
一、LLM 主要类别概览
1.1.分类依据与核心差异
| 模型类别 | 核心模块组合 | 核心特征 | 典型任务场景 | 代表模型 |
|---|---|---|---|---|
| 自编码模型 | 仅使用 Encoder | 双向注意力,擅长捕捉上下文语义关联,聚焦 “语言理解” | 文本分类、情感分析、问答 | BERT、RoBERTa、ALBERT、DeBERTa |
| 自回归模型 | 仅使用 Decoder | 单向注意力,从左到右生成文本,聚焦 “语言生成” | 长文本生成、摘要、对话 | GPT 系列(GPT-1/2/3/4)、OPT、BLOOM |
| 序列到序列模型 | 同时使用 Encoder+Decoder | 结合双向理解与单向生成能力,聚焦 “序列转换” | 机器翻译、文本摘要(生成式) | T5、BART、Pegasus |
1.2.发展时间线
- 2018 年:自编码模型代表 BERT、自回归模型代表 GPT-1 先后推出,分别奠定 “NLU(自然语言理解)” 与 “NLG(自然语言生成)” 的技术基础;
- 2019 年:序列到序列模型 T5、BART 推出,尝试用 “文本到文本” 统一所有 NLP 任务;
- 2020-2023 年:自回归模型(如 GPT-3、GPT-4、OPT)凭借强大的生成能力成为 LLM 主流,Encoder-Decoder 模型则在特定转换任务(如翻译)中保持优势。
二、自编码模型(Autoencoder, AE):聚焦语言理解
2.1.核心定义与定位
核心定位:专注自然语言理解(NLU),如文本分类、情感分析、提取式问答等,不擅长长文本生成任务。
2.2.代表模型:BERT(Bidirectional Encoder Representations from Transformers)
(1)BERT 核心架构
| 架构模块 | 核心功能与细节 |
|---|---|
| Embedding 模块 | 由三类嵌入张量叠加而成,为输入文本提供 “词、句子、位置” 三维信息: - Token Embeddings:词嵌入,首个 token 固定为 [CLS](用于分类任务); - Segment Embeddings:句子分段嵌入(区分输入中的两个句子,如 “句子 A / 句子 B”); - Position Embeddings:位置编码(学习文本中 token 的顺序信息)。 |
| 双向 Transformer 模块 | 基于原始 Transformer Encoder,核心是 “双向多头注意力”: - 每个 token 可同时关注左右两侧的上下文(如预测 “[MASK]” 时,同时利用左侧 “my dog is” 和右侧 “and cute”); - 标准 BERT 包含 12 层 Transformer Encoder,每层含 12 个注意力头,特征维度 768。 |
| 预微调层 | 根据下游任务灵活调整输出层: - 分类任务(如情感分析):取 [CLS] token 的隐藏状态,加全连接层 + Softmax; - 问答任务(如 SQuAD):输出 “答案起始位置” 和 “答案结束位置” 的概率; - 序列标注任务(如 NER):对每个 token 的隐藏状态做分类。 |
(2)BERT 预训练任务
-
Masked Language Model(MLM,掩码语言模型)
- 任务逻辑:随机选择输入中 15% 的 token 进行 “掩码处理”,模型根据双向上下文预测原 token;
- 掩码规则:
- 80% 概率用 [MASK] 替换(如 “my dog is cute”→“my [MASK] is cute”);
- 10% 概率用随机 token 替换(如 “my cat is cute”);
- 10% 概率保持原 token 不变(如 “my dog is cute”);
- 目的:避免模型依赖 “[MASK]” 标记,同时强制模型学习上下文语义关联。
-
Next Sentence Prediction(NSP,下一句话预测)
- 任务逻辑:输入句子对(A, B),模型预测 B 是否为 A 的真实下一句话;
- 数据构造:
- 50% 正样本:B 是 A 的真实下一句(标记为 IsNext);
- 50% 负样本:B 是随机抽取的句子(标记为 NotNext);
- 目的:让模型学习句子间的逻辑关联(如因果、转折),适配问答、自然语言推理等任务。
(3)BERT 数据集与关键参数
- 训练数据集:BooksCorpus(8 亿词,含数千本图书)+ English Wikipedia(25 亿词),确保数据的高质量与多样性;
- 关键参数(标准 BERT-Base):
| 参数 | 取值 |
|---|---|
| Transformer 层数 | 12 |
| 特征维度(Hidden Size) | 768 |
| 注意力头数 | 12 |
| 总参数量 | 1.15 亿 |
3. 自编码模型的优缺点
| 类别 | 具体表现 |
|---|---|
| 优点 |
1. 双向注意力捕捉全局语义更全面,在 NLU 任务(如情感分析、问答)中表现远超传统模型; 2. 预训练语义向量可迁移性强,下游任务微调成本低; 3. 并行化效率高(Transformer 架构支持 GPU 并行计算)。 |
| 缺点 |
1. 输入噪声问题:预训练的 “MASK” 标记在下游任务中不存在,导致 “预训练 - 微调” 存在分布差异; 2. 不擅长生成任务:双向注意力无法支持 “从左到右” 的连贯文本生成; 3. 长文本处理能力有限(标准 BERT 最大序列长度 512,难以处理超过 1000 词的文本)。 |
三、自回归模型(Autoregressive, AR):聚焦语言生成
3.1.核心定义与定位
核心定位:专注自然语言生成(NLG),如长文本创作、对话机器人、代码生成等,同时支持少量理解任务(需微调)。
3.2.代表模型:GPT(Generative Pre-trained Transformer)
(1)GPT 核心架构
| 架构模块 | 核心功能与细节 |
|---|---|
| Text & Position Embedding | 与 BERT 类似,包含 “词嵌入(We)” 和 “位置编码(Wp)”,但无 “句子分段嵌入”(早期 GPT 不处理句子对任务); - 词嵌入维度:768(与特征维度一致); - 位置编码:学习式位置编码(非正弦编码),形状为 [max_seq_len, embedding_dim]。 |
| Decoder Block(12 层) | 每层包含两个核心子层,且引入 “Pre-LayerNorm”(层归一化前置): 1. Masked Multi-Head Attention: - 掩码机制:确保生成 token i 时,仅关注前 i-1 个 token(如生成 “cute” 时,仅利用 “my dog is”),避免泄露后文信息; - 12 个注意力头,捕捉不同维度的前文关联; 2. Feed Forward:两层全连接网络,激活函数为 GELU,对注意力输出做非线性变换。 |
| Prediction Layer | 输出层为 “全连接层 + Softmax”: - 输入:最后一层 Decoder Block 的隐藏状态(ht); - 输出:下一个 token 的概率分布(P (u) = Softmax (ht・Wt^T),其中 Wt 为输出权重矩阵)。 |
(2)GPT 训练过程:“预训练 + 微调” 两阶段
-
第一阶段:无监督预训练(Pre-training)
- 任务目标:最大化 “预测下一个 token” 的似然函数,学习语言生成规律;
- 数学表达:给定句子 U = [u1, u2, ..., un],目标函数为: \(L_1(U) = \sum_{i=k+1}^n \log P(u_i | u_{i-k}, ..., u_{i-1}; \Theta)\) 其中 k 为上下文窗口大小(GPT-1 中 k=512),\(\Theta\)为模型参数;
- 数据:BooksCorpus 数据集(7GB,含 11000 本独立书籍,7400 万 + 句子),确保模型学习长距离文本关联。
-
第二阶段:有监督微调(Fine-tuning)
- 任务目标:针对下游任务(如文本分类、问答),用有标注数据调整模型参数;
- 过程:
- 输入:任务专属序列(如分类任务的 “文本 + 标签”,问答任务的 “问题 + 段落 + 答案”);
- 目标函数:最大化任务标签的似然函数 \(L_2 = \sum_{(X,y)} \log P(y | X; \Theta)\)(X 为输入序列,y 为标签);
- 最终优化目标:\(L_{total} = L_2 + \lambda L_1\)(\(\lambda\)为权重,平衡预训练与微调);
- 适配方式:对不同任务定义专属输入格式(如问答任务输入 “Question: [问题] Context: [段落]”),并增加任务特定分类层。
(3)GPT 数据集与关键参数
- 训练数据集:BooksCorpus(7GB,含 11000 本图书,未开源,确保泛化能力);
- 关键参数(GPT-1):
| 参数 | 取值 |
|---|---|
| Transformer Decoder 层数 | 12 |
| 特征维度(Hidden Size) | 768 |
| 注意力头数 | 12 |
| 总参数量 | 1.17 亿 |
3. 自回归模型的优缺点
| 类别 | 具体表现 |
|---|---|
| 优点 |
1. 长文本生成能力强:单向生成逻辑符合人类阅读习惯,可连贯生成数千词的文本(如小说、报告); 2. 任务适配灵活:通过 “提示学习(Prompting)” 可支持零样本 / 少样本任务(如 GPT-3 的情境学习); 3. 并行化效率高:Decoder 架构支持部分并行计算,训练与推理速度优于 Encoder-Decoder 模型。 |
| 缺点 |
1. 单向注意力局限:无法利用后文信息,可能导致生成内容逻辑矛盾(如前文说 “喜欢猫”,后文说 “讨厌宠物”); 2. 早期模型依赖微调:GPT-1 需为每个任务单独微调,成本较高(GPT-2/3 后通过零样本 / 少样本解决); 3. 生成速度慢:文本需逐 token 生成,无法并行(如生成 1000 词需 1000 步计算)。 |
四、序列到序列模型(Sequence-to-Sequence, Seq2Seq):聚焦序列转换
4.1.核心定义与定位
核心定位:专注“序列转换”任务,如机器翻译(英文→中文)、生成式摘要(长文本→短摘要)、多模态转换(文本→图像),兼顾理解与生成能力。
4.2.代表模型:T5(Text-to-Text Transfer Transformer)
(1)T5 核心架构
| 架构模块 | 核心功能与细节 |
|---|---|
| Encoder 模块 | 基于 Transformer Encoder,采用 “简化版 Layer Normalization”: - 移除 Layer Norm 的偏置(Bias),减少参数数量; - 将 Layer Norm 放在残差连接外侧(原始 Transformer 在内侧),提升训练稳定性; - 双向注意力,负责理解输入文本的全局语义(如翻译任务中理解英文输入 “my dog”)。 |
| Decoder 模块 | 基于 Transformer Decoder,核心优化是 “相对位置编码”: - 位置编码为标量,直接加到注意力权重的 logits 上,而非与词嵌入叠加; - 各层共享位置编码,但同一层内不同注意力头的位置编码独立学习; - 单向注意力(掩码机制)+ Encoder-Decoder Attention(关注 Encoder 输出的语义信息),负责生成目标序列(如翻译任务中生成中文 “我的狗”)。 |
| 统一文本格式 | 所有任务均转换为 “输入文本→输出文本”: - 翻译任务:输入 “translate English to Chinese: my dog” → 输出 “我的狗”; - 摘要任务:输入 “summarize: [长文本]” → 输出 “[短摘要]”; - 问答任务:输入 “answer: [问题] context: [段落]” → 输出 “[答案]”。 |
(2)T5 预训练任务
-
自监督预训练任务
- 包含两类核心任务,兼顾理解与生成:
- Masked Language Modeling(MLM,填空任务):与 BERT 类似,随机掩码输入 token,模型预测原 token(如 “my [MASK] is cute”→“my dog is cute”);
- Causal Language Modeling(CLM,因果语言建模):与 GPT 类似,从左到右预测下一个 token(如 “my dog is”→“cute”);
- 目的:让模型同时掌握 “上下文理解” 与 “文本生成” 能力。
- 包含两类核心任务,兼顾理解与生成:
-
多任务监督微调
- 任务覆盖:SQuAD 问答、机器翻译(WMT)、文本分类(GLUE)等 10 + 类 NLP 任务;
- 过程:用有标注的任务数据微调预训练模型,进一步提升模型在特定任务上的性能;
- 优势:通过多任务学习,模型可在不同任务间迁移知识(如翻译任务的语言规律可辅助摘要任务)。
(3)T5 数据集与关键参数
- 训练数据集:C4(Colossal Clean Crawled Corpus),由 Common Crawl 网页数据过滤得到(移除重复、低质量、非英文文本),规模达数万亿词;
- 关键参数(T5-Base):
| 参数 | 取值 |
|---|---|
| Transformer 层数(Encoder+Decoder) | 24(各 12 层) |
| 特征维度(Hidden Size) | 768 |
| 注意力头数 | 12 |
| 总参数量 | 2.2 亿 |
4.3.序列到序列模型的优缺点
| 类别 | 具体表现 |
|---|---|
| 优点 |
1. 任务覆盖广:可统一处理理解、生成、转换类任务,扩展性强; 2. 转换能力突出:在机器翻译、生成式摘要等任务中,表现优于单一 Encoder/Decoder 模型; 3. 参数量效率高:相比同等参数量的自回归模型(如 GPT-2),T5 在多任务上性能更优。 |
| 缺点 |
1. 训练成本高:Encoder+Decoder 架构参数量大(如 T5-XXL 达 1100 亿参数),需更大算力; 2. 推理速度慢:Decoder 逐 token 生成,且需与 Encoder 交互,效率低于 Decoder-Only 模型; 3. 可解释性差:Encoder 与 Decoder 的交互过程复杂,难以追溯生成结果的逻辑来源。 |
五、LLM 主流架构:为何选择 Decoder-Only?
5.1.核心优势:效率与能力的平衡
(1)训练与推理效率更高
- 参数量等效性:Encoder-Decoder 模型的参数量需翻倍(如 Encoder 100 亿 + Decoder 100 亿)才能达到与 Decoder-Only 模型(200 亿)相近的性能;在同等参数量下,Decoder-Only 模型的训练成本更低(少一个模块的计算);
- 推理并行性:Decoder-Only 模型的前向计算仅需处理 Decoder 模块,而 Encoder-Decoder 需先运行 Encoder 再运行 Decoder,推理速度慢 30%~50%(尤其长文本生成场景)。
(2)理论层面:双向注意力的 “低秩问题”
- Encoder 的双向注意力虽能捕捉全局语义,但会导致注意力矩阵的 “低秩化”—— 不同 token 的注意力权重差异减小,削弱模型的表达能力;
- 生成任务中,单向注意力(Decoder)可更好地建模 “文本序列的因果关系”(如 “因为下雨,所以带伞”),而双向注意力引入的 “后文信息” 对生成逻辑无实质帮助,反而增加噪声。
(3)任务适配灵活性更强
- Decoder-Only 模型通过 “提示学习(Prompting)” 可支持零样本 / 少样本任务(如 GPT-3 的情境学习),无需修改模型结构;
- Encoder-Decoder 模型需为特定任务设计 “Encoder 输入格式 + Decoder 输出格式”,灵活度低于 Decoder-Only;
- 典型案例:GPT-4 通过单一 Decoder-Only 架构,可同时支持对话、代码生成、数学推理、多模态理解,而同等能力的 Encoder-Decoder 模型(如 T5-XXL)需大量任务专属微调。
5.2.适用场景验证
- 对话交互:需连贯记忆上下文,单向生成逻辑符合人类对话习惯(如 ChatGPT);
- 长文本生成:可生成数万词的报告、小说,Encoder-Decoder 模型因 Encoder 序列长度限制难以实现;
- 代码生成:需严格遵循语法的因果逻辑(如 “定义函数→调用函数”),单向注意力更适配。
六、核心问题与答案总结
| 核心问题 | 答案 |
|---|---|
| 1. LLM 主要类别架构有哪些? | 三类:Encoder-Only(自编码模型)、Decoder-Only(自回归模型)、Encoder-Decoder(序列到序列模型)。 |
| 2. 自编码模型的基本原理是什么? | 在输入中随机 MASK 部分单词,模型通过双向上下文预测被 MASK 的词,聚焦语言理解任务。 |
| 3. BERT 的核心架构与预训练任务是什么? | 架构:Transformer 的 Encoder 模块(含 Embedding、双向 Transformer、预微调层); 预训练任务:MLM(掩码语言模型)+ NSP(下一句话预测)。 |
| 4. 自回归模型的基本原理是什么? | 从左到右学习文本,仅利用上文信息预测下一个 token,聚焦语言生成任务。 |
| 5. GPT 的核心架构与预训练任务是什么? | 架构:Transformer 的 Decoder 模块(移除 Encoder-Decoder Attention,含 12 层 Decoder Block); 预训练任务:无监督预训练(预测下一个 token)+ 有监督任务微调。 |
| 6. 序列到序列模型的基本原理是什么? | 同时使用 Encoder(理解输入)和 Decoder(生成输出),将每个任务视作 “序列到序列的转换”,聚焦转换任务。 |
| 7. T5 的核心架构与预训练任务是什么? | 架构:Transformer 的 Encoder-Decoder(简化 Layer Norm、相对位置编码); 预训练任务:MLM(填空)+ CLM(因果语言建模)+ 多任务监督微调。 |
| 8. LLM 为何主流选择 Decoder-Only 架构? | 1. 训练 / 推理效率高(同等参数量下成本更低); 2. 无双向注意力的低秩问题,表达能力更强; 3. 任务适配灵活(支持零样本 / 少样本学习)。 |

浙公网安备 33010602011771号