轻量模型之Distilling the Knowledge in a Neural Network

1.知识蒸馏介绍

2. 知识蒸馏思想

3.知识蒸馏方法

4.在大数据集上训练专家集成模型

作业

1：推导：推导证明利用logits优化是知识蒸馏的特殊形式

2：文字回答：在知识蒸馏中，温度T的作用是什么？

为了从教师网络中蒸馏出更多，更丰富的信息，引入温度参数T的概念，T越大，网络输出类别概率分布越“soft”,学生网络越能从教师网络中学到更丰富的knowledge。

3：文字回答：知识蒸馏的位置只能是最后输出吗？还可能在网络哪些地方进行蒸馏？

在激活层的输出也可以。

posted @ 2020-07-30 10:36 sariel_sakura 阅读(261) 评论(0) 收藏举报

刷新页面返回顶部