2025 年 5月 17 日随笔档案 - 何双新

2025年5月17日

摘要： Scaled Dot-Product Attention是Transformer架构的核心组件，也是现代深度学习中最重要的注意力机制之一。本文将从原理、实现和应用三个方面深入剖析这一机制。 1. 基本原理 Scaled Dot-Product Attention的本质是一种加权求和机制，通过计算查询阅读全文

posted @ 2025-05-17 23:22 何双新阅读(876) 评论(0) 推荐(0)

第8讲、Multi-Head Attention 的核心机制与实现细节

摘要： 🤔 为什么要有 Multi-Head Attention？单个 Attention 机制虽然可以捕捉句子中不同词之间的关系，但它只能关注一种角度或模式。 Multi-Head 的作用是：多个头 = 多个视角同时观察序列的不同关系。例如：一个头可能专注主语和动词的关系；另一个头可能专注宾语阅读全文

posted @ 2025-05-17 23:06 何双新阅读(737) 评论(0) 推荐(0)

且将新火试新茶

公告