摘要: 动态卷积学习n个静态卷积核的线性混合,加权使用它们输入相关的注意力,表现出比普通卷积更优越的性能。然而,它将卷积参数的数量增加了n倍,因此并不是参数高效的。这导致不能探索n>100的设置(比典型设置n<10大一个数量级),推动动态卷积性能边界提升的同时享受参数的高效性。为此,论文提出了KernelW 阅读全文
posted @ 2024-09-09 12:31 晓飞的算法工程笔记 阅读(163) 评论(0) 推荐(1) 编辑