第3章模型架构

Encoder-Only 架构

代表模型有BERT、RoBERTa等，它们生成上下文向量表征但不能直接用于生成文本。模型的任务形式通常是分类任务，例如情感分类和自然语言推理任务。在情感分析和自然语言处理任务中，输入是以特殊标记（例如[CLS]）开头的标记化文本序列，输出是相应的任务结果，如正面情绪或蕴涵关系。

该架构的优势在于对文本上下文信息有更好的理解，能够双向地依赖左侧和右侧上下文信息。然而，缺点在于不能自然地生成完整文本，并且需要更多特定的训练目标，如掩码语言建模。

代表模型有GPT系列模型。这些模型属于自回归语言模型，能够根据给定的提示生成上下文向量表征，并对下一个词元生成概率分布，从而完成文本的生成。在自动补全任务中，输入是以特殊标记（例如[CLS]）开头的部分文本序列，输出是对应的完整文本。

与编码端架构相比，解码器架构的优点在于能够自然地生成完整文本，并且具有简单的训练目标（最大似然）。然而，其缺点在于对于每个词元，上下文向量表征只能单向地依赖于左侧上下文，而不能同时考虑右侧上下文。

代表模型有BART、T5等。这些模型在一定程度上结合了编码端和解码端的优点，能够处理输入文本并生成输出文本。公式化表示为：

x_{1:L}⇒ϕ(x_{1:L}),p(y_{1:L}∣ϕ(x_{1:L}))。

以表格到文本生成任务为例，输入和输出可以表示为：

[名称:, 植物, |, 类型:, 花卉, 商店]⇒[花卉, 是, 一, 个, 商店]。

这种模型具有编码端和解码端两个架构的共同优点，对于每个词元，上下文向量表征可以双向地依赖于左侧和右侧上下文，使其能够自由生成文本数据。然而，缺点在于需要更多的特定训练目标。

现有语言模型可分为：RNN、LSTM、GRU以及Transformer

递归神经网络（RNN）作为一种序列模型，通过递归地计算隐藏状态来进行计算。RNN的三种实现方式包括SimpleRNN、BidirectionalSequenceRNN等。在实际应用中，LSTM和GRU等更为先进的RNN变体被广泛使用，以解决梯度消失等问题。

Transformer主要包括：注意力机制、残差连接和层归一化、位置嵌入三种模块。

注意力机制：它使用注意力机制来捕捉上下文信息，通过多头注意力和前馈网络构建了Transformer块。

残差连接：防止梯度消失；层归一化：确保向量的大小合理；

位置嵌入：

GPT3模型架构的形状（如何分配1750亿个参数）：

不同版本的Transformer之间存在重要但详细的差异：