用Bert的attention对角线mask 来代替 [mask]导致loss为0问题
摘要:
自己实习的时候遇到这个问题,需要对用到mlm的任务方式,一开始采用了对attention矩阵进行对角线mask的方式,但是训练出现泄漏了,loss很快到了0. 内容来源:https://zhuanlan.zhihu.com/p/453420634 https://www.zhihu.com/ques 阅读全文
posted @ 2022-07-08 15:58 nlp如此迷人 阅读(849) 评论(0) 推荐(0)
浙公网安备 33010602011771号