时间又不会为我赖着不走, 干嘛停下来为了选择头疼

编程匠心者

厚德 求真 励学 笃行
诚朴 雄伟 励学 敦行

摘要: Introduction 在transformer model出现之前,主流的sequence transduction model是基于循环或者卷积神经网络,表现最好的模型也是用attention mechanism连接基于循环神经网络的encoder和decoder. Transformer m 阅读全文
posted @ 2019-12-07 12:50 编程匠心者 阅读(1218) 评论(0) 推荐(0) 编辑