2021 年 11月 19 日随笔档案 - kalice

2021年11月19日

摘要：终于来到transformer了，之前的几个东西都搞的差不多了，剩下的就是搭积木搭模型了。首先来看一下transformer模型，OK好像就是那一套东西。 transformer是纯基于注意力机制的架构，但是也是之前的encoder-decoder架构。层归一化这里用到了层归一化，和之前的批量归阅读全文

posted @ 2021-11-19 20:14 kalice 阅读(752) 评论(0) 推荐(0)

多头Attention 和自注意力机制

摘要：这个多头attention确实挺搞的，这个东西绕来绕去，看torch的文档也看不懂，看源码也迷迷糊糊的，可能我的智商就是不够吧。。。枯了论文里的公式求法，可以看到它因为是self-multiheadsAttention。多头自注意力机制，所以它这里的Q K V 实际上是同一个东西，也就是最后一维都阅读全文

posted @ 2021-11-19 11:15 kalice 阅读(1867) 评论(0) 推荐(0)

kalice

公告