摘要: Attention is Not What you Need 阅读笔记 一个 Causal Grassmann 架构用几何结构的 Grassmann flows 取代了自注意力机制,用于序列建模,在Wikitext-2上达到了有竞争力的困惑度,在SNLI上取得了略高的准确率,同时在理论上展示了序列长 阅读全文
posted @ 2025-12-30 16:10 AikNr 阅读(89) 评论(0) 推荐(0)