Attention论文及Transformer工作原理概述 - wsg_blog - 博客园

:: :: ::

Attention论文及Transformer工作原理概述

Posted on 2025-11-06 19:09 wsg_blog 阅读(4) 评论(0) 收藏举报

Attention及Transformer工作原理概述

这篇论文是目前所有大语言模型的基石，ChatGPT、DeepSeek等等，最核心的创新点就是提出了最核心的Transformer架构和Self-Attention自注意力机制（PageRank在搜索中的地位），即使不做算法的调优，模型的训练，像LLM算法工程化、推理加速及优化要理解Attention的基本原理。

刷新页面返回顶部