摘要:
TinyBERT: 提出了一种基于Transformer架构的蒸馏方法(Transformer distillation) 两阶段的框架, a.预训练阶段 ( generaldistillation) b.fine-tuning阶段 (task-specific distillation) 对Emb 阅读全文
posted @ 2020-05-19 23:21
朱群喜_QQ囍_海疯xx
阅读(227)
评论(0)
推荐(0)
摘要:
首先看下BERT和ALBERT模型的一些版本配置 1. Layer个数和performance的关系:24层是个临界点,大于24后效果有下降趋势 2. 隐藏层节点数目和performance的关系:4096个是个临界点,大于4096后效果有下降趋势 3. 宽的ALBERT需要深的架构吗?作者的答案是 阅读全文
posted @ 2020-05-19 14:38
朱群喜_QQ囍_海疯xx
阅读(169)
评论(0)
推荐(0)

浙公网安备 33010602011771号