随笔分类 - 实习学习
摘要:1.Learning Deep Transformer Models for Machine Translation https://arxiv.org/pdf/1906.01787.pdf 主要说明为如何训练一个深层的transformer,问题在于深层的梯度消失问题,采用的方法是对前面所有层的输
阅读全文
摘要:1.在opennmt框架代码中ensemble的做法是在opennmt/utils/checkpoint.py 对模型中全部参数进行平均,平均后创建新的checkpoint 2.在nmt中https://github.com/tensorflow/nmt tensorflow的一个框架(工程师个人框
阅读全文
摘要:1.参考资料, 一个很好的KD的资料list https://github.com/dkozlov/awesome-knowledge-distillation 一个中文的相关资料https://www.zhihu.com/question/333196499/answer/738197683 一些
阅读全文
摘要:1.综述 资料集合 模型是由于有较高的方差产生,集成多个模型可以减小方差,为了使模型有集成有效,需要每一模型都需要是很好的模型但是需要犯不同的错误,结果会更鲁棒一些 主要参考内容https://machinelearningmastery.com/stacking-ensemble-for-deep
阅读全文

浙公网安备 33010602011771号