博客园  :: 首页  :: 新随笔  :: 管理

Attention论文及Transformer工作原理概述

Posted on 2025-11-06 19:09  wsg_blog  阅读(4)  评论(0)    收藏  举报

Attention及Transformer工作原理概述

这篇论文是目前所有大语言模型的基石,ChatGPT、DeepSeek等等,最核心的创新点就是提出了最核心的Transformer架构和Self-Attention自注意力机制(PageRank在搜索中的地位),即使不做算法的调优,模型的训练,像LLM算法工程化、推理加速及优化要理解Attention的基本原理。