05 2020 档案
摘要:TinyBERT: 提出了一种基于Transformer架构的蒸馏方法(Transformer distillation) 两阶段的框架, a.预训练阶段 ( generaldistillation) b.fine-tuning阶段 (task-specific distillation) 对Emb
阅读全文
摘要:首先看下BERT和ALBERT模型的一些版本配置 1. Layer个数和performance的关系:24层是个临界点,大于24后效果有下降趋势 2. 隐藏层节点数目和performance的关系:4096个是个临界点,大于4096后效果有下降趋势 3. 宽的ALBERT需要深的架构吗?作者的答案是
阅读全文

浙公网安备 33010602011771号