2022年7月8日

用Bert的attention对角线mask 来代替 [mask]导致loss为0问题

摘要: 自己实习的时候遇到这个问题,需要对用到mlm的任务方式,一开始采用了对attention矩阵进行对角线mask的方式,但是训练出现泄漏了,loss很快到了0. 内容来源:https://zhuanlan.zhihu.com/p/453420634 https://www.zhihu.com/ques 阅读全文

posted @ 2022-07-08 15:58 nlp如此迷人 阅读(849) 评论(0) 推荐(0)

导航