会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
JetHu
博客园
首页
新随笔
联系
订阅
管理
随笔分类 -
预训练语言模型
Bert whole mask为什么效果比mask字效果更好?
摘要:论文What Does BERT Look At? An Analysis of BERT’s Attention 指出bert的多头注意力,不同的头可以学到不同的信息,有的学到词法、有的学到语法、语义。 论文地址:https://arxiv.org/pdf/1908.11365.pdf 举例如:现
阅读全文
posted @
2021-01-04 11:39
JetHu
阅读(185)
评论(0)
推荐(0)
公告