Transformer

2025.10.17

1.大型语言模型在预训练阶段学习通用表示能力,使得模型能在零样本学习中有效推理,这主要归功于Transformer架构的自注意力模块。自注意力机制使模型能够捕捉上下文依赖和长距离关系,从而学习通用表征,支持零样本泛化。

posted @ 2025-10-17 23:29  sellingpear  阅读(5)  评论(0)    收藏  举报