随笔分类 - 预训练语言模型

Bert whole mask为什么效果比mask字效果更好？

摘要：论文What Does BERT Look At? An Analysis of BERT’s Attention 指出bert的多头注意力，不同的头可以学到不同的信息，有的学到词法、有的学到语法、语义。论文地址：https://arxiv.org/pdf/1908.11365.pdf 举例如：现阅读全文

posted @ 2021-01-04 11:39 JetHu 阅读(185) 评论(0) 推荐(0)

JetHu

随笔分类 - 预训练语言模型

公告