2024 年 4月 6 日随笔档案 - 倒地

2024年4月6日

摘要：本文总结 Transformer 和 attention 机制相关的 trick。留下学习痕迹。 Multi Query Attention (MQA) 早在 2019 年就被提出，但最近才被重视。相比 Multi Head Attention，MQA 让多头注意力层的各个 head 共享同一份阅读全文

posted @ 2024-04-06 22:30 倒地阅读(222) 评论(0) 推荐(0)

为什么频率维度需要进行非等变卷积？

摘要：阅读 demucs 代码时，发现对频率维度有这样的操作： add frequency embedding to allow for non equivariant convolutions over the frequency axis. 但什么是非等变卷积？非等变性又是什么？等变性 equiva 阅读全文

posted @ 2024-04-06 00:14 倒地阅读(37) 评论(0) 推荐(0)

chirp

公告