transformer读书报告

Transformer 是 2017 年由 Google 团队在《Attention Is All You Need》中提出的深度学习模型,它彻底摒弃了传统 RNN、LSTM 的序列依赖结构,以自注意力机制为核心,实现了并行化计算,大幅提升了训练效率与模型性能。

Transformer 的核心架构由编码器(Encoder)和解码器(Decoder)堆叠而成。编码器的自注意力层能捕捉输入序列内部的依赖关系,例如文本中词语的长距离关联;解码器则通过掩码自注意力和编码器 - 解码器注意力,兼顾目标序列的生成逻辑与输入序列的语义关联。此外,位置编码的引入弥补了注意力机制无法感知序列顺序的缺陷,为模型注入了位置信息。

该模型的出现颠覆了自然语言处理领域的发展格局,基于它衍生出的 BERT、GPT 等预训练模型,在文本分类、机器翻译、问答系统等任务中取得了突破性成果。同时,Transformer 的思想也跨界赋能计算机视觉领域,ViT 等模型将图像切分为 patch 序列,借助注意力机制实现了高精度的图像识别。

当然,Transformer 也存在一定局限性,其注意力机制的计算复杂度会随序列长度增长呈平方级上升,对长文本处理不够友好。后续的稀疏注意力、线性注意力等改进方案,正是为了攻克这一难题。

总而言之,Transformer 不仅是自然语言处理的里程碑式模型,更构建了跨模态学习的基础框架,为人工智能的发展开辟了全新路径。

posted @ 2025-12-25 22:46  piuky  阅读(4)  评论(0)    收藏  举报