这篇论文是目前所有大语言模型的基石,ChatGPT、DeepSeek等等,最核心的创新点就是提出了最核心的Transformer架构和Self-Attention自注意力机制(PageRank在搜索中的地位),即使不做算法的调优,模型的训练,像LLM算法工程化、推理加速及优化要理解Attention的基本原理。
博客园 © 2004-2025 浙公网安备 33010602011771号 浙ICP备2021040463号-3