摘要: BERT中,为什么已经有85%不被mask的单词,还需要在15%进行“mask策略”的单词中选取10%保持原词不变?问题描述:问题背景:BERT的输入数据“mask策略”原因分析:问题描述:为什么已经有85%不进行“mask策略”修改的token,还需要在15%进行“mask策略”的token中选取 阅读全文
posted @ 2025-04-14 09:06 有何m不可 阅读(84) 评论(0) 推荐(0)