摘要:
本文总结 Transformer 和 attention 机制相关的 trick。留下学习痕迹。 Multi Query Attention (MQA) 早在 2019 年就被提出,但最近才被重视。 相比 Multi Head Attention,MQA 让多头注意力层的各个 head 共享同一份 阅读全文
posted @ 2024-04-06 22:30
倒地
阅读(214)
评论(0)
推荐(0)
摘要:
阅读 demucs 代码时,发现对频率维度有这样的操作: add frequency embedding to allow for non equivariant convolutions over the frequency axis. 但什么是非等变卷积?非等变性又是什么? 等变性 equiva 阅读全文
posted @ 2024-04-06 00:14
倒地
阅读(27)
评论(0)
推荐(0)

浙公网安备 33010602011771号