摘要:
转自:https://zhuanlan.zhihu.com/p/650469278 Transformer 模型在处理序列数据时,其自注意力机制使得模型能够全局地捕捉不同元素之间的依赖关系,但这样做的代价是丧失了序列中的元素顺序信息。由于自注意力机制并不考虑元素在序列中的位置,所以在输入序列的任何置 阅读全文
posted @ 2025-09-13 14:17
有何m不可
阅读(58)
评论(0)
推荐(0)
摘要:
一、Transformer位置编码问题 Transformer的自注意力机制本质上是一种基于内容相似度的匹配操作,其核心计算过程与词序无关。给定输入序列中任意两个词元 token,其注意力分数仅依赖于它们的语义相关性,而与它们在序列中的绝对或相对位置无关。具体表现为: 1. 查询-键相关性计算: 通 阅读全文
posted @ 2025-09-13 12:07
有何m不可
阅读(19)
评论(0)
推荐(0)
摘要:
RoPE(Rotary Position Embedding)选择用复数乘法实现旋转,核心原因是复数运算的天然旋转特性与工程实现的高效性完美适配了位置编码的需求,具体可以从以下几个角度理解: 1. 复数乘法天然对应 “旋转” 的几何意义 复数在复平面上的乘法运算,本质就是 “旋转 + 缩放”。对于复 阅读全文
posted @ 2025-09-13 11:14
有何m不可
阅读(23)
评论(0)
推荐(0)

浙公网安备 33010602011771号