Transformer

2025.10.17

1.大型语言模型在预训练阶段学习通用表示能力，使得模型能在零样本学习中有效推理，这主要归功于Transformer架构的自注意力模块。自注意力机制使模型能够捕捉上下文依赖和长距离关系，从而学习通用表征，支持零样本泛化。