摘要: 文章地址:https://zhuanlan.zhihu.com/p/94359189 笔记: 模型size=1/7; 推理耗时=1/9; 性能会轻微损失;GLUE下降3个点(BERT-PKD,DistilBERT下降7/8个点); 三个loss:embedding loss(输入,mes),tran 阅读全文
posted @ 2021-03-03 10:33 ZH奶酪 阅读(237) 评论(0) 推荐(0) 编辑