摘要: 本文总结 Transformer 和 attention 机制相关的 trick。留下学习痕迹。 Multi Query Attention (MQA) 早在 2019 年就被提出,但最近才被重视。 相比 Multi Head Attention,MQA 让多头注意力层的各个 head 共享同一份 阅读全文
posted @ 2024-04-06 22:30 倒地 阅读(214) 评论(0) 推荐(0)
摘要: 阅读 demucs 代码时,发现对频率维度有这样的操作: add frequency embedding to allow for non equivariant convolutions over the frequency axis. 但什么是非等变卷积?非等变性又是什么? 等变性 equiva 阅读全文
posted @ 2024-04-06 00:14 倒地 阅读(27) 评论(0) 推荐(0)