太阳雨~

2019年8月16日

摘要：弥补transformer在编码超长文本的缺陷，可编码任意长度的文本到固定长度的向量。阅读全文

posted @ 2019-08-16 17:14 太阳雨~ 阅读(143) 评论(0) 推荐(0)

2019年8月14日

摘要： sgd，adagrad支持了自适应学习率，通过累积历史平方梯度，对学习率进行缩放达到自适应的效果；rmsprop加了一个累积值的衰减策略，adam不光加了平方梯度累积值的衰减，还加了梯度累积值的衰减。nag是带动量的sgd（nesterov+sgd），而nadam是带动量的adam。阅读全文

posted @ 2019-08-14 15:49 太阳雨~ 阅读(124) 评论(0) 推荐(0)

batch normalization 与 layer normalization

摘要： bn和ln的本质区别： batch normalization是纵向归一化，在batch的方向上对同一层每一个神经元进行归一化，即同一层每个神经元具有不同的均值和方差。 layer normalization 是横向归一化，即同一层的所有神经元具有相同的均值和方差。 bn和ln的使用区别： 1.如果阅读全文

posted @ 2019-08-14 15:46 太阳雨~ 阅读(1832) 评论(0) 推荐(0)

2019年8月10日

nlp四大任务(分类、匹配、序列标注、文本生成)集成项目

摘要：介绍数据快速开始模块阅读全文

posted @ 2019-08-10 16:05 太阳雨~ 阅读(4325) 评论(0) 推荐(0)

公告