为什么bert的input三个embedding需要相加

为何要把三个embedding相加

见https://www.zhihu.com/question/374835153/answer/1080315948

简单的来说就是是向量的大小,方向,语义多样化

posted @ 2020-10-23 10:40  高文星星  阅读(428)  评论(0编辑  收藏  举报