摘要:
结论:蒸馏是个好方法。 模型压缩/蒸馏在论文《Model Compression》及《Distilling the Knowledge in a Neural Network》提及,下面介绍后者及使用keras测试mnist数据集。 蒸馏:使用小模型模拟大模型的泛性。 通常,我们训练mnist时,t 阅读全文
摘要:
先说结论:没经过仔细调参,打不开论文所说代码链接(fq也没打开),结果和普通卷积网络比较没有优势。反倒是BN对网络起着非常重要的作用,达到了99.17%的测试精度(训练轮数还没到过拟合)。 论文为《Training Very Deep Networks》,一说其在resnet前发表,resnet模仿 阅读全文
摘要:
VAEs最早由“Diederik P. Kingma and Max Welling, “Auto-Encoding Variational Bayes, arXiv (2013)”和“Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra 阅读全文
摘要:
论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 以下陆续介绍bert及其变体(介绍的为粗体) bert自从横空出世以来,引起广泛关注,相关研究及bert变体/扩展喷涌而出,如EL 阅读全文