LLM 主要类别与架构全景解析

自 2017 年《Attention Is All You Need》论文提出 Transformer 架构以来，大语言模型（LLM）基于这一核心框架衍生出三大主流类别 ——自编码模型（Encoder-Only）、自回归模型（Decoder-Only）、序列到序列模型（Encoder-Decoder）。不同类别通过对 Transformer 编码器、解码器模块的选择性使用，适配不同的自然语言处理（NLP）任务（如理解、生成、转换）。本文将系统梳理各类别模型的核心架构、代表模型、训练逻辑与应用场景，并聚焦当前 LLM 的主流选择 ——Decoder-Only 架构的优势。

一、LLM 主要类别概览

LLM 的分类本质是对 Transformer 核心模块（Encoder/Decoder）的组合与取舍，三类模型的技术路线与任务定位差异显著，共同构成了 NLP 技术生态的核心框架。

1.1.分类依据与核心差异

LLM 的分类完全基于对 Transformer 架构中 “编码器（Encoder）” 和 “解码器（Decoder）” 的使用方式，具体差异如下表所示：

模型类别	核心模块组合	核心特征	典型任务场景	代表模型
自编码模型	仅使用 Encoder	双向注意力，擅长捕捉上下文语义关联，聚焦 “语言理解”	文本分类、情感分析、问答	BERT、RoBERTa、ALBERT、DeBERTa
自回归模型	仅使用 Decoder	单向注意力，从左到右生成文本，聚焦 “语言生成”	长文本生成、摘要、对话	GPT 系列（GPT-1/2/3/4）、OPT、BLOOM
序列到序列模型	同时使用 Encoder+Decoder	结合双向理解与单向生成能力，聚焦 “序列转换”	机器翻译、文本摘要（生成式）	T5、BART、Pegasus

1.2.发展时间线

三类模型的演进呈现 “从理解到生成，再到统一转换” 的趋势，关键节点如下：

2018 年：自编码模型代表 BERT、自回归模型代表 GPT-1 先后推出，分别奠定 “NLU（自然语言理解）” 与 “NLG（自然语言生成）” 的技术基础；
2019 年：序列到序列模型 T5、BART 推出，尝试用 “文本到文本” 统一所有 NLP 任务；
2020-2023 年：自回归模型（如 GPT-3、GPT-4、OPT）凭借强大的生成能力成为 LLM 主流，Encoder-Decoder 模型则在特定转换任务（如翻译）中保持优势。

二、自编码模型（Autoencoder, AE）：聚焦语言理解

自编码模型（又称 Encoder-Only 模型）的核心是利用 Transformer 编码器的双向注意力，学习文本的全局语义表示，主要用于需要 “深度理解上下文” 的 NLP 任务。其代表模型 BERT 是 NLP 发展史上的里程碑，彻底改变了语言理解任务的技术路线。

2.1.核心定义与定位

自编码模型的本质是 “通过‘破坏 - 重建’输入文本，学习通用语义表示”：在输入中随机掩盖（MASK）部分 token，模型通过双向上下文预测被掩盖的 token，最终将 Encoder 的输出作为文本的语义向量，用于下游理解任务。

核心定位：专注自然语言理解（NLU），如文本分类、情感分析、提取式问答等，不擅长长文本生成任务。

2.2.代表模型：BERT（Bidirectional Encoder Representations from Transformers）

BERT 由 Google AI 于 2018 年 10 月提出，首次将 “双向 Transformer” 用于预训练，在 11 项 NLP 任务中刷新 SOTA（如 SQuAD 阅读理解超越人类水平），成为 NLU 任务的基准模型。

（1）BERT 核心架构

BERT 的架构分为三层，从下到上依次为 “嵌入层（Embedding）→ 双向 Transformer 层 → 预微调层”，整体仅使用 Transformer 的 Encoder 模块，完全舍弃 Decoder：

架构模块	核心功能与细节
Embedding 模块	由三类嵌入张量叠加而成，为输入文本提供 “词、句子、位置” 三维信息： - Token Embeddings：词嵌入，首个 token 固定为 [CLS]（用于分类任务）； - Segment Embeddings：句子分段嵌入（区分输入中的两个句子，如 “句子 A / 句子 B”）； - Position Embeddings：位置编码（学习文本中 token 的顺序信息）。
双向 Transformer 模块	基于原始 Transformer Encoder，核心是 “双向多头注意力”： - 每个 token 可同时关注左右两侧的上下文（如预测 “[MASK]” 时，同时利用左侧 “my dog is” 和右侧 “and cute”）； - 标准 BERT 包含 12 层 Transformer Encoder，每层含 12 个注意力头，特征维度 768。
预微调层	根据下游任务灵活调整输出层： - 分类任务（如情感分析）：取 [CLS] token 的隐藏状态，加全连接层 + Softmax； - 问答任务（如 SQuAD）：输出 “答案起始位置” 和 “答案结束位置” 的概率； - 序列标注任务（如 NER）：对每个 token 的隐藏状态做分类。

（2）BERT 预训练任务

BERT 通过两项自监督预训练任务，确保模型学习到通用语义表示：

Masked Language Model（MLM，掩码语言模型）
- 任务逻辑：随机选择输入中 15% 的 token 进行 “掩码处理”，模型根据双向上下文预测原 token；
- 掩码规则：
  - 80% 概率用 [MASK] 替换（如 “my dog is cute”→“my [MASK] is cute”）；
  - 10% 概率用随机 token 替换（如 “my cat is cute”）；
  - 10% 概率保持原 token 不变（如 “my dog is cute”）；
- 目的：避免模型依赖 “[MASK]” 标记，同时强制模型学习上下文语义关联。
Next Sentence Prediction（NSP，下一句话预测）
- 任务逻辑：输入句子对（A, B），模型预测 B 是否为 A 的真实下一句话；
- 数据构造：
  - 50% 正样本：B 是 A 的真实下一句（标记为 IsNext）；
  - 50% 负样本：B 是随机抽取的句子（标记为 NotNext）；
- 目的：让模型学习句子间的逻辑关联（如因果、转折），适配问答、自然语言推理等任务。

（3）BERT 数据集与关键参数

训练数据集：BooksCorpus（8 亿词，含数千本图书）+ English Wikipedia（25 亿词），确保数据的高质量与多样性；
关键参数（标准 BERT-Base）：

参数	取值
Transformer 层数	12
特征维度（Hidden Size）	768
注意力头数	12
总参数量	1.15 亿

3. 自编码模型的优缺点

类别	具体表现
优点	1. 双向注意力捕捉全局语义更全面，在 NLU 任务（如情感分析、问答）中表现远超传统模型； 2. 预训练语义向量可迁移性强，下游任务微调成本低； 3. 并行化效率高（Transformer 架构支持 GPU 并行计算）。
缺点	1. 输入噪声问题：预训练的 “MASK” 标记在下游任务中不存在，导致 “预训练 - 微调” 存在分布差异； 2. 不擅长生成任务：双向注意力无法支持 “从左到右” 的连贯文本生成； 3. 长文本处理能力有限（标准 BERT 最大序列长度 512，难以处理超过 1000 词的文本）。

类别

具体表现

优点

1. 双向注意力捕捉全局语义更全面，在 NLU 任务（如情感分析、问答）中表现远超传统模型；

2. 预训练语义向量可迁移性强，下游任务微调成本低；

3. 并行化效率高（Transformer 架构支持 GPU 并行计算）。

缺点

1. 输入噪声问题：预训练的 “MASK” 标记在下游任务中不存在，导致 “预训练 - 微调” 存在分布差异；

2. 不擅长生成任务：双向注意力无法支持 “从左到右” 的连贯文本生成；

3. 长文本处理能力有限（标准 BERT 最大序列长度 512，难以处理超过 1000 词的文本）。

三、自回归模型（Autoregressive, AR）：聚焦语言生成

自回归模型（又称 Decoder-Only 模型）的核心是利用 Transformer 解码器的单向注意力，从左到右生成文本—— 每个 token 的生成仅依赖前文信息，不依赖后文，因此在长文本生成、对话等任务中表现突出。其代表模型 GPT 系列（GPT-1/2/3/4）是当前 LLM 的主流技术路线。

3.1.核心定义与定位

自回归模型的本质是 “通过‘预测下一个 token’的任务，学习文本生成的规律”：给定前文序列（如 “my favorite animal is”），模型基于 Transformer Decoder 预测下一个最可能的 token（如 “a”），不断迭代生成完整文本。

核心定位：专注自然语言生成（NLG），如长文本创作、对话机器人、代码生成等，同时支持少量理解任务（需微调）。

3.2.代表模型：GPT（Generative Pre-trained Transformer）

GPT 由 OpenAI 于 2018 年 6 月提出，历经 GPT-1 到 GPT-4 的迭代，参数量从 1.17 亿增至千亿级，逐步实现 “通用语言生成” 能力。以下以 GPT-1 为基础，解析自回归模型的核心架构与训练逻辑。

（1）GPT 核心架构

GPT 的架构基于 Transformer Decoder，但做了关键简化 ——移除经典 Decoder 中的 “Encoder-Decoder Attention” 子层，仅保留 “掩码多头注意力（Masked Multi-Head Attention）” 和 “前馈网络（Feed Forward）”，确保生成过程的单向性：

架构模块	核心功能与细节
Text & Position Embedding	与 BERT 类似，包含 “词嵌入（We）” 和 “位置编码（Wp）”，但无 “句子分段嵌入”（早期 GPT 不处理句子对任务）； - 词嵌入维度：768（与特征维度一致）； - 位置编码：学习式位置编码（非正弦编码），形状为 [max_seq_len, embedding_dim]。
Decoder Block（12 层）	每层包含两个核心子层，且引入 “Pre-LayerNorm”（层归一化前置）： 1. Masked Multi-Head Attention： - 掩码机制：确保生成 token i 时，仅关注前 i-1 个 token（如生成 “cute” 时，仅利用 “my dog is”），避免泄露后文信息； - 12 个注意力头，捕捉不同维度的前文关联； 2. Feed Forward：两层全连接网络，激活函数为 GELU，对注意力输出做非线性变换。
Prediction Layer	输出层为 “全连接层 + Softmax”： - 输入：最后一层 Decoder Block 的隐藏状态（ht）； - 输出：下一个 token 的概率分布（P (u) = Softmax (ht・Wt^T)，其中 Wt 为输出权重矩阵）。

（2）GPT 训练过程：“预训练 + 微调” 两阶段

GPT 的训练分为 “无监督预训练” 和 “有监督微调”，确保模型先学习通用语言规律，再适配具体任务：

第一阶段：无监督预训练（Pre-training）
- 任务目标：最大化 “预测下一个 token” 的似然函数，学习语言生成规律；
- 数学表达：给定句子 U = [u1, u2, ..., un]，目标函数为： $$L_1(U) = \sum_{i=k+1}^n \log P(u_i | u_{i-k}, ..., u_{i-1}; \Theta)$ 其中 k 为上下文窗口大小（GPT-1 中 k=512），$\Theta$为模型参数；$
- 数据：BooksCorpus 数据集（7GB，含 11000 本独立书籍，7400 万 + 句子），确保模型学习长距离文本关联。
第二阶段：有监督微调（Fine-tuning）
- 任务目标：针对下游任务（如文本分类、问答），用有标注数据调整模型参数；
- 过程：
  - 输入：任务专属序列（如分类任务的 “文本 + 标签”，问答任务的 “问题 + 段落 + 答案”）；
  - 目标函数：最大化任务标签的似然函数 $$L_2 = \sum_{(X,y)} \log P(y | X; \Theta)$（X 为输入序列，y 为标签）；$
  - 最终优化目标： $$L_{total} = L_2 + \lambda L_1$（$\lambda$为权重，平衡预训练与微调）；$
- 适配方式：对不同任务定义专属输入格式（如问答任务输入 “Question: [问题] Context: [段落]”），并增加任务特定分类层。

（3）GPT 数据集与关键参数

训练数据集：BooksCorpus（7GB，含 11000 本图书，未开源，确保泛化能力）；
关键参数（GPT-1）：

参数	取值
Transformer Decoder 层数	12
特征维度（Hidden Size）	768
注意力头数	12
总参数量	1.17 亿

3. 自回归模型的优缺点

类别	具体表现
优点	1. 长文本生成能力强：单向生成逻辑符合人类阅读习惯，可连贯生成数千词的文本（如小说、报告）； 2. 任务适配灵活：通过 “提示学习（Prompting）” 可支持零样本 / 少样本任务（如 GPT-3 的情境学习）； 3. 并行化效率高：Decoder 架构支持部分并行计算，训练与推理速度优于 Encoder-Decoder 模型。
缺点	1. 单向注意力局限：无法利用后文信息，可能导致生成内容逻辑矛盾（如前文说 “喜欢猫”，后文说 “讨厌宠物”）； 2. 早期模型依赖微调：GPT-1 需为每个任务单独微调，成本较高（GPT-2/3 后通过零样本 / 少样本解决）； 3. 生成速度慢：文本需逐 token 生成，无法并行（如生成 1000 词需 1000 步计算）。

类别

具体表现

优点

1. 长文本生成能力强：单向生成逻辑符合人类阅读习惯，可连贯生成数千词的文本（如小说、报告）；

2. 任务适配灵活：通过 “提示学习（Prompting）” 可支持零样本 / 少样本任务（如 GPT-3 的情境学习）；

3. 并行化效率高：Decoder 架构支持部分并行计算，训练与推理速度优于 Encoder-Decoder 模型。

缺点

1. 单向注意力局限：无法利用后文信息，可能导致生成内容逻辑矛盾（如前文说 “喜欢猫”，后文说 “讨厌宠物”）；

2. 早期模型依赖微调：GPT-1 需为每个任务单独微调，成本较高（GPT-2/3 后通过零样本 / 少样本解决）；

3. 生成速度慢：文本需逐 token 生成，无法并行（如生成 1000 词需 1000 步计算）。

四、序列到序列模型（Sequence-to-Sequence, Seq2Seq）：聚焦序列转换

序列到序列模型（又称 Encoder-Decoder 模型）的核心是结合 Transformer 的 Encoder（双向理解）与 Decoder（单向生成），将 “输入序列” 转换为 “输出序列”，适配需要 “先理解、再生成” 的任务（如机器翻译、生成式摘要）。其代表模型 T5（Text-to-Text Transfer Transformer）提出 “文本到文本” 的统一框架，尝试用单一模型解决所有 NLP 任务。

4.1.核心定义与定位

序列到序列模型的本质是 “将所有 NLP 任务统一为‘输入文本→输出文本’的转换问题”：无论任务类型（翻译、摘要、问答），均通过 Encoder 理解输入文本，再通过 Decoder 生成目标输出文本。

核心定位：专注“序列转换”任务，如机器翻译（英文→中文）、生成式摘要（长文本→短摘要）、多模态转换（文本→图像），兼顾理解与生成能力。

4.2.代表模型：T5（Text-to-Text Transfer Transformer）

T5 由 Google 于 2020 年提出，核心思想是 “用文本到文本的统一格式处理所有 NLP 任务”，通过大规模预训练与多任务微调，成为序列到序列模型的基准。

（1）T5 核心架构

T5 的架构基于原始 Transformer 的 Encoder-Decoder，但做了两处关键优化，提升训练效率与模型表达能力：

架构模块	核心功能与细节
Encoder 模块	基于 Transformer Encoder，采用 “简化版 Layer Normalization”： - 移除 Layer Norm 的偏置（Bias），减少参数数量； - 将 Layer Norm 放在残差连接外侧（原始 Transformer 在内侧），提升训练稳定性； - 双向注意力，负责理解输入文本的全局语义（如翻译任务中理解英文输入 “my dog”）。
Decoder 模块	基于 Transformer Decoder，核心优化是 “相对位置编码”： - 位置编码为标量，直接加到注意力权重的 logits 上，而非与词嵌入叠加； - 各层共享位置编码，但同一层内不同注意力头的位置编码独立学习； - 单向注意力（掩码机制）+ Encoder-Decoder Attention（关注 Encoder 输出的语义信息），负责生成目标序列（如翻译任务中生成中文 “我的狗”）。
统一文本格式	所有任务均转换为 “输入文本→输出文本”： - 翻译任务：输入 “translate English to Chinese: my dog” → 输出 “我的狗”； - 摘要任务：输入 “summarize: [长文本]” → 输出 “[短摘要]”； - 问答任务：输入 “answer: [问题] context: [段落]” → 输出 “[答案]”。

（2）T5 预训练任务

T5 的预训练采用 “自监督 + 多任务监督” 结合的方式，确保模型同时具备通用能力与任务适配性：

自监督预训练任务
- 包含两类核心任务，兼顾理解与生成：
  - Masked Language Modeling（MLM，填空任务）：与 BERT 类似，随机掩码输入 token，模型预测原 token（如 “my [MASK] is cute”→“my dog is cute”）；
  - Causal Language Modeling（CLM，因果语言建模）：与 GPT 类似，从左到右预测下一个 token（如 “my dog is”→“cute”）；
- 目的：让模型同时掌握 “上下文理解” 与 “文本生成” 能力。
多任务监督微调
- 任务覆盖：SQuAD 问答、机器翻译（WMT）、文本分类（GLUE）等 10 + 类 NLP 任务；
- 过程：用有标注的任务数据微调预训练模型，进一步提升模型在特定任务上的性能；
- 优势：通过多任务学习，模型可在不同任务间迁移知识（如翻译任务的语言规律可辅助摘要任务）。

（3）T5 数据集与关键参数

训练数据集：C4（Colossal Clean Crawled Corpus），由 Common Crawl 网页数据过滤得到（移除重复、低质量、非英文文本），规模达数万亿词；
关键参数（T5-Base）：

参数	取值
Transformer 层数（Encoder+Decoder）	24（各 12 层）
特征维度（Hidden Size）	768
注意力头数	12
总参数量	2.2 亿

4.3.序列到序列模型的优缺点

类别	具体表现
优点	1. 任务覆盖广：可统一处理理解、生成、转换类任务，扩展性强； 2. 转换能力突出：在机器翻译、生成式摘要等任务中，表现优于单一 Encoder/Decoder 模型； 3. 参数量效率高：相比同等参数量的自回归模型（如 GPT-2），T5 在多任务上性能更优。
缺点	1. 训练成本高：Encoder+Decoder 架构参数量大（如 T5-XXL 达 1100 亿参数），需更大算力； 2. 推理速度慢：Decoder 逐 token 生成，且需与 Encoder 交互，效率低于 Decoder-Only 模型； 3. 可解释性差：Encoder 与 Decoder 的交互过程复杂，难以追溯生成结果的逻辑来源。

类别

具体表现

优点

1. 任务覆盖广：可统一处理理解、生成、转换类任务，扩展性强；

2. 转换能力突出：在机器翻译、生成式摘要等任务中，表现优于单一 Encoder/Decoder 模型；

3. 参数量效率高：相比同等参数量的自回归模型（如 GPT-2），T5 在多任务上性能更优。

缺点

1. 训练成本高：Encoder+Decoder 架构参数量大（如 T5-XXL 达 1100 亿参数），需更大算力；

2. 推理速度慢：Decoder 逐 token 生成，且需与 Encoder 交互，效率低于 Decoder-Only 模型；

3. 可解释性差：Encoder 与 Decoder 的交互过程复杂，难以追溯生成结果的逻辑来源。

五、LLM 主流架构：为何选择 Decoder-Only？

当前主流 LLM（如 GPT-4、Claude、Gemini）均采用 Decoder-Only 架构，而非 Encoder-Decoder 或 Encoder-Only。这一选择不仅基于工程效率，更有理论层面的核心优势。

5.1.核心优势：效率与能力的平衡

（1）训练与推理效率更高

参数量等效性：Encoder-Decoder 模型的参数量需翻倍（如 Encoder 100 亿 + Decoder 100 亿）才能达到与 Decoder-Only 模型（200 亿）相近的性能；在同等参数量下，Decoder-Only 模型的训练成本更低（少一个模块的计算）；
推理并行性：Decoder-Only 模型的前向计算仅需处理 Decoder 模块，而 Encoder-Decoder 需先运行 Encoder 再运行 Decoder，推理速度慢 30%~50%（尤其长文本生成场景）。

（2）理论层面：双向注意力的 “低秩问题”

Encoder 的双向注意力虽能捕捉全局语义，但会导致注意力矩阵的 “低秩化”—— 不同 token 的注意力权重差异减小，削弱模型的表达能力；
生成任务中，单向注意力（Decoder）可更好地建模 “文本序列的因果关系”（如 “因为下雨，所以带伞”），而双向注意力引入的 “后文信息” 对生成逻辑无实质帮助，反而增加噪声。

（3）任务适配灵活性更强

Decoder-Only 模型通过 “提示学习（Prompting）” 可支持零样本 / 少样本任务（如 GPT-3 的情境学习），无需修改模型结构；
Encoder-Decoder 模型需为特定任务设计 “Encoder 输入格式 + Decoder 输出格式”，灵活度低于 Decoder-Only；
典型案例：GPT-4 通过单一 Decoder-Only 架构，可同时支持对话、代码生成、数学推理、多模态理解，而同等能力的 Encoder-Decoder 模型（如 T5-XXL）需大量任务专属微调。

5.2.适用场景验证

Decoder-Only 架构在当前 LLM 的核心场景中表现最优：

对话交互：需连贯记忆上下文，单向生成逻辑符合人类对话习惯（如 ChatGPT）；
长文本生成：可生成数万词的报告、小说，Encoder-Decoder 模型因 Encoder 序列长度限制难以实现；
代码生成：需严格遵循语法的因果逻辑（如 “定义函数→调用函数”），单向注意力更适配。

六、核心问题与答案总结

为便于快速回顾，以下整理本文核心问题的标准答案，覆盖 LLM 类别、架构、预训练任务等关键知识点：

核心问题	答案
1. LLM 主要类别架构有哪些？	三类：Encoder-Only（自编码模型）、Decoder-Only（自回归模型）、Encoder-Decoder（序列到序列模型）。
2. 自编码模型的基本原理是什么？	在输入中随机 MASK 部分单词，模型通过双向上下文预测被 MASK 的词，聚焦语言理解任务。
3. BERT 的核心架构与预训练任务是什么？	架构：Transformer 的 Encoder 模块（含 Embedding、双向 Transformer、预微调层）；预训练任务：MLM（掩码语言模型）+ NSP（下一句话预测）。
4. 自回归模型的基本原理是什么？	从左到右学习文本，仅利用上文信息预测下一个 token，聚焦语言生成任务。
5. GPT 的核心架构与预训练任务是什么？	架构：Transformer 的 Decoder 模块（移除 Encoder-Decoder Attention，含 12 层 Decoder Block）；预训练任务：无监督预训练（预测下一个 token）+ 有监督任务微调。
6. 序列到序列模型的基本原理是什么？	同时使用 Encoder（理解输入）和 Decoder（生成输出），将每个任务视作 “序列到序列的转换”，聚焦转换任务。
7. T5 的核心架构与预训练任务是什么？	架构：Transformer 的 Encoder-Decoder（简化 Layer Norm、相对位置编码）；预训练任务：MLM（填空）+ CLM（因果语言建模）+ 多任务监督微调。
8. LLM 为何主流选择 Decoder-Only 架构？	1. 训练 / 推理效率高（同等参数量下成本更低）； 2. 无双向注意力的低秩问题，表达能力更强； 3. 任务适配灵活（支持零样本 / 少样本学习）。

七、总结

LLM 的三类架构（Encoder-Only、Decoder-Only、Encoder-Decoder）分别对应 “理解、生成、转换” 三大核心任务，共同构成了 NLP 技术的完整版图。自编码模型（如 BERT）奠定了语言理解的基础，序列到序列模型（如 T5）在转换任务中保持优势，而 Decoder-Only 架构（如 GPT 系列）凭借 “效率、能力、灵活度” 的三重优势，成为当前 LLM 的主流选择。

未来，随着多模态技术的发展（如 GPT-4V、Gemini），Decoder-Only 架构可能进一步融合图像、音频等模态的理解能力，而 Encoder-Decoder 模型则可能在特定垂直领域（如专业机器翻译）持续优化。但无论技术路线如何演进，对 Transformer 核心模块的深刻理解，仍是掌握 LLM 架构设计的关键。

posted @ 2025-08-27 17:40 酒剑仙* 阅读(570) 评论(0) 收藏举报

刷新页面返回顶部

Augus

LLM 主要类别与架构全景解析

一、LLM 主要类别概览

1.1.分类依据与核心差异

1.2.发展时间线

二、自编码模型（Autoencoder, AE）：聚焦语言理解

2.1.核心定义与定位

2.2.代表模型：BERT（Bidirectional Encoder Representations from Transformers）

（1）BERT 核心架构

（2）BERT 预训练任务

（3）BERT 数据集与关键参数

3. 自编码模型的优缺点

三、自回归模型（Autoregressive, AR）：聚焦语言生成

3.1.核心定义与定位

3.2.代表模型：GPT（Generative Pre-trained Transformer）

（1）GPT 核心架构

（2）GPT 训练过程：“预训练 + 微调” 两阶段

（3）GPT 数据集与关键参数

3. 自回归模型的优缺点

四、序列到序列模型（Sequence-to-Sequence, Seq2Seq）：聚焦序列转换

4.1.核心定义与定位

4.2.代表模型：T5（Text-to-Text Transfer Transformer）

（1）T5 核心架构

（2）T5 预训练任务

（3）T5 数据集与关键参数

4.3.序列到序列模型的优缺点

五、LLM 主流架构：为何选择 Decoder-Only？

5.1.核心优势：效率与能力的平衡

（1）训练与推理效率更高

（2）理论层面：双向注意力的 “低秩问题”

（3）任务适配灵活性更强

5.2.适用场景验证

六、核心问题与答案总结

七、总结

公告