摘要:
self attention Q=K=V :输入一个句子,那么里面的每个词都要和该句子中的所有词进行attention计算,目的是要学习句子内部词之间的依赖关系,捕获句子的内部结构。 首先,要build Q,K,V,对其进行线性变换 for example: dot,reshape, permute 阅读全文
posted @ 2018-11-20 09:24
Google-boy
阅读(2102)
评论(0)
推荐(0)
浙公网安备 33010602011771号