摘要: 阅读了快手的论文 MARM,论文中的算法 符号看起来不容易理解。 对照图自己研究了下, 理解了。 需要知道为什么(b) 和(c) 中 的中间结果是相同的。需要知道 masked-self-attention 缓存是怎么处理,看箭头 快手 MARM: Unlocking the Future of R 阅读全文
posted @ 2024-12-24 19:21 bregman 阅读(194) 评论(0) 推荐(0)