大模型理论基础打卡03

第3章 模型架构

Encoder-Only 架构

代表模型有BERT、RoBERTa等,它们生成上下文向量表征但不能直接用于生成文本。模型的任务形式通常是分类任务,例如情感分类和自然语言推理任务。在情感分析和自然语言处理任务中,输入是以特殊标记(例如[CLS])开头的标记化文本序列,输出是相应的任务结果,如正面情绪或蕴涵关系。

该架构的优势在于对文本上下文信息有更好的理解,能够双向地依赖左侧和右侧上下文信息。然而,缺点在于不能自然地生成完整文本,并且需要更多特定的训练目标,如掩码语言建模。

Decoder-Only 架构

代表模型有GPT系列模型。这些模型属于自回归语言模型,能够根据给定的提示生成上下文向量表征,并对下一个词元生成概率分布,从而完成文本的生成。在自动补全任务中,输入是以特殊标记(例如[CLS])开头的部分文本序列,输出是对应的完整文本。

与编码端架构相比,解码器架构的优点在于能够自然地生成完整文本,并且具有简单的训练目标(最大似然)。然而,其缺点在于对于每个词元,上下文向量表征只能单向地依赖于左侧上下文,而不能同时考虑右侧上下文。

Encoder-Decoder 架构

代表模型有BART、T5等。这些模型在一定程度上结合了编码端和解码端的优点,能够处理输入文本并生成输出文本。公式化表示为:

x_{1:L}⇒ϕ(x_{1:L}),p(y_{1:L}∣ϕ(x_{1:L}))。

以表格到文本生成任务为例,输入和输出可以表示为:

[名称:, 植物, |, 类型:, 花卉, 商店]⇒[花卉, 是, 一, 个, 商店]。

这种模型具有编码端和解码端两个架构的共同优点,对于每个词元,上下文向量表征可以双向地依赖于左侧和右侧上下文,使其能够自由生成文本数据。然而,缺点在于需要更多的特定训练目标。

语言模型理论

现有语言模型可分为:RNN、LSTM、GRU以及Transformer

递归神经网络(RNN)作为一种序列模型,通过递归地计算隐藏状态来进行计算。RNN的三种实现方式包括SimpleRNN、BidirectionalSequenceRNN等。在实际应用中,LSTM和GRU等更为先进的RNN变体被广泛使用,以解决梯度消失等问题。

Transformer主要包括:注意力机制、残差连接和层归一化、位置嵌入三种模块。

注意力机制:它使用注意力机制来捕捉上下文信息,通过多头注意力和前馈网络构建了Transformer块。

残差连接:防止梯度消失; 层归一化:确保向量的大小合理;

位置嵌入:

GPT3模型架构的形状(如何分配1750亿个参数):

  • 隐藏状态的维度:dmodel=12288
  • 中间前馈层的维度:dff=4dmodel
  • 注意头的数量:nheads=96
  • 上下文长度:L=2048

不同版本的Transformer之间存在重要但详细的差异:

  • 层归一化“后归一化”(原始Transformer论文)与“先归一化”(GPT-2),这影响了训练的稳定性(Davis等人,2021)。
  • 应用了丢弃(Dropout)以防止过拟合。
  • GPT-3使用了sparse Transformer(稀释 Transformer)来减少参数数量,并与稠密层交错使用。
  • 根据Transformer的类型(Encdoer-Only, Decoder-Only, Encdoer-Decoder),使用不同的掩码操作。
posted @ 2024-01-20 22:26  wuhaoliu  阅读(23)  评论(0)    收藏  举报  来源