论文记录
1. GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition
2. Distilling the Knowledge in a Neural Network
而”模型蒸馏“属于模型压缩的一种方法
模型的参数量和其所能捕获的“知识“量之间并非稳定的线性关系,而是接近边际收益逐渐减少的一种增长曲线
另一个关键因素是训练的方法。合适的训练方法可以使得在模型参数总量比较小时,尽可能地获取到更多的“知识”
浙公网安备 33010602011771号