2018年11月20日
摘要: self attention Q=K=V :输入一个句子,那么里面的每个词都要和该句子中的所有词进行attention计算,目的是要学习句子内部词之间的依赖关系,捕获句子的内部结构。 首先,要build Q,K,V,对其进行线性变换 for example: dot,reshape, permute 阅读全文
posted @ 2018-11-20 09:24 Google-boy 阅读(2102) 评论(0) 推荐(0)