摘要: 终于来到transformer了,之前的几个东西都搞的差不多了,剩下的就是搭积木搭模型了。首先来看一下transformer模型,OK好像就是那一套东西。 transformer是纯基于注意力机制的架构,但是也是之前的encoder-decoder架构。 层归一化 这里用到了层归一化,和之前的批量归 阅读全文
posted @ 2021-11-19 20:14 kalice 阅读(752) 评论(0) 推荐(0)
摘要: 这个多头attention确实挺搞的,这个东西绕来绕去,看torch的文档也看不懂,看源码也迷迷糊糊的,可能我的智商就是不够吧。。。枯了 论文里的公式求法,可以看到它因为是self-multiheadsAttention。多头自注意力机制,所以它这里的Q K V 实际上是同一个东西,也就是最后一维都 阅读全文
posted @ 2021-11-19 11:15 kalice 阅读(1867) 评论(0) 推荐(0)