摘要:
这个多头attention确实挺搞的,这个东西绕来绕去,看torch的文档也看不懂,看源码也迷迷糊糊的,可能我的智商就是不够吧。。。枯了 论文里的公式求法,可以看到它因为是self-multiheadsAttention。多头自注意力机制,所以它这里的Q K V 实际上是同一个东西,也就是最后一维都 阅读全文
摘要:
训练集、测试集、验证集的划分 fixed or random fixed split:对dataset只划分一次 random split: 对dataset进行random split,但是对不同的random seed得到的performance做一个求平均。 graph is special 阅读全文
摘要:
之前在seq2seq算法上浪费了太多时间了。。。搞得本来早就应该进行Attention被拖到现在,真实无语了,被自己的愚蠢给吓到了。 What is Attention 我个人的理解是Attention是一种重要度区分机制。 注意力使得我们关注的东西具有了区分度,也就是说,原本没有差异的一组事物,被 阅读全文