摘要:
终于来到transformer了,之前的几个东西都搞的差不多了,剩下的就是搭积木搭模型了。首先来看一下transformer模型,OK好像就是那一套东西。 transformer是纯基于注意力机制的架构,但是也是之前的encoder-decoder架构。 层归一化 这里用到了层归一化,和之前的批量归 阅读全文
posted @ 2021-11-19 20:14
kalice
阅读(752)
评论(0)
推荐(0)
摘要:
这个多头attention确实挺搞的,这个东西绕来绕去,看torch的文档也看不懂,看源码也迷迷糊糊的,可能我的智商就是不够吧。。。枯了 论文里的公式求法,可以看到它因为是self-multiheadsAttention。多头自注意力机制,所以它这里的Q K V 实际上是同一个东西,也就是最后一维都 阅读全文
posted @ 2021-11-19 11:15
kalice
阅读(1867)
评论(0)
推荐(0)

浙公网安备 33010602011771号