现代大模型架构

架构图

将AE与AR模型同Transformer进行联系，那么Transformer的Encoder可看作为AE，而其Decoder（例如在文本翻译、文本续写这类NLG任务）可看作AR，而完整的类Transformer结构则是seq2seq
PS: 个人感觉此处可以再补充一点，Transformer的Decoder符合以下特征时，才是典型AR：
- 目标是预测下一个token（基于前面的上下文）：
- 模型结构硬性地只允许看“前面的 token”（使用 masked self-attention）
- 训练/推理是一步步进行的（逐步解码）

自编码模型，一般用于自然语言理解任务，情感分析、句子匹配、段落理解等
使用双向self-attention，每个token在建模时能够访问整个序列中所有token的表示，不受顺序方向的限制
在使用MLM进行预训练时，有两个问题：
- 1、基于其他token的信息重建mask部分的token，此时假设是各个被重建的mask部分是相互独立的，但是在实际的文本中，high-order依赖和long-range依赖是非常常见的。high-order: 比如The doctor who treated the patient later received an award for his work.中，被mask掉的词是doctor、patient、award、work，这时候AE模型并不会对doctor+patient+work->award这种高阶依赖关系进行捕捉，而是把这几个mask独立开，依赖于另外的词汇; long_range: 例如The doctor helped the patient before [MASK] left the hospital，需要建立一个entity->pronou的指代链条，AE模型没有刻意强化前后文之间的链式依赖，导致泛化性虽然增加，但是具体指代不准确
- 2、预训练基于MLM任务进行学习，但是在下游任务微调时，使用的是完整的输入，[MASK]的出现使得两个任务之间产生了distribution shift，h易导致 pretrain–finetune discrepancy问题
缺点是它无法直接生成文本输出，因此在需要生成文本的任务中不太适用

Encoder-Decoder 架构的核心思想是利用编码器对输入序列进行编码，提取其特征和语义信息，并将编码结果传递给解码器。然后，解码器根据编码结果生成相应的输出序列。这种架构的优点是能够更好地处理输入序列和输出序列之间的关系，从而提高机器翻译和对话生成等任务的准确性。通常用于序列到序列（Seq2Seq）任务，如机器翻译、对话生成等
缺点是模型复杂度较高，训练时间和计算资源消耗较大。
特点：输入输出分开encoder和decoder处理，encoder和decoder参数独立

也称为非因果解码器，属于Decoder only结构
输入部分使用双向注意力，输出部分使用单向注意力。在生成新的输出时，会考虑到所有之前生成的输出
特点：Prefix Decoder在处理输入序列时，模型可以同时考虑序列中的所有词。生成输出时会考虑整个输入序列，而不仅仅是之前的输出。这使得它在处理需要全局上下文的任务时表现更好。训练阶段，通常使用自回归方式进行训练，即在生成当前词时，使用之前生成的所有词。Encoder和Decoder则共享了同一个Transformer结构，共享参数。
代表模型：GLM、ChatGLM、ChatGLM2、U-PaLM
特点：输入输出一起进入Decoder，只不过在处理输出部分时的时候让其满足causal-decoder的形式，进行自回归训练

posted @ 2025-07-25 00:01 Luna-Evelyn 阅读(18) 评论(0) 收藏举报

刷新页面返回顶部