摘要: 1. RoPE 背景与复数形式引入在自然语言处理领域,Transformer 架构凭借自注意力机制成为主流模型,但该架构本身不具备捕捉序列顺序信息的能力,因此位置编码是不可或缺的组成部分。传统位置编码方法如绝对位置编码和相对位置编码存在一定局限性,例如绝对位置编码难以建模长距离依赖,相对位置编码在处 阅读全文
posted @ 2025-09-02 13:57 有何m不可 阅读(24) 评论(0) 推荐(0)
摘要: 转自:https://www.zhihu.com/tardis/bd/art/647109286 1. 旋转编码 RoPE 1.1 基本概念 在介绍 RoPE 之前,先给出一些符号定义,以及基本背景。 首先定义一个长度为 的输入序列为: 其中 表示输入序列中第 个 token,而输入序列 对应的 e 阅读全文
posted @ 2025-09-02 12:10 有何m不可 阅读(223) 评论(0) 推荐(0)