摘要: 弥补transformer在编码超长文本的缺陷,可编码任意长度的文本到固定长度的向量。 阅读全文
posted @ 2019-08-16 17:14 太阳雨~ 阅读(143) 评论(0) 推荐(0)
摘要: sgd,adagrad支持了自适应学习率,通过累积历史平方梯度,对学习率进行缩放达到自适应的效果;rmsprop加了一个累积值的衰减策略,adam不光加了平方梯度累积值的衰减,还加了梯度累积值的衰减。nag是带动量的sgd(nesterov+sgd),而nadam是带动量的adam。 阅读全文
posted @ 2019-08-14 15:49 太阳雨~ 阅读(124) 评论(0) 推荐(0)
摘要: bn和ln的本质区别: batch normalization是纵向归一化,在batch的方向上对同一层每一个神经元进行归一化,即同一层每个神经元具有不同的均值和方差。 layer normalization 是横向归一化,即同一层的所有神经元具有相同的均值和方差。 bn和ln的使用区别: 1.如果 阅读全文
posted @ 2019-08-14 15:46 太阳雨~ 阅读(1814) 评论(0) 推荐(0)
摘要: 介绍 数据 快速开始 模块 阅读全文
posted @ 2019-08-10 16:05 太阳雨~ 阅读(4319) 评论(0) 推荐(0)