会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
太阳雨~
博客园
首页
新随笔
联系
订阅
管理
2019年8月16日
transformer-xl
摘要: 弥补transformer在编码超长文本的缺陷,可编码任意长度的文本到固定长度的向量。
阅读全文
posted @ 2019-08-16 17:14 太阳雨~
阅读(143)
评论(0)
推荐(0)
2019年8月14日
优化器
摘要: sgd,adagrad支持了自适应学习率,通过累积历史平方梯度,对学习率进行缩放达到自适应的效果;rmsprop加了一个累积值的衰减策略,adam不光加了平方梯度累积值的衰减,还加了梯度累积值的衰减。nag是带动量的sgd(nesterov+sgd),而nadam是带动量的adam。
阅读全文
posted @ 2019-08-14 15:49 太阳雨~
阅读(124)
评论(0)
推荐(0)
batch normalization 与 layer normalization
摘要: bn和ln的本质区别: batch normalization是纵向归一化,在batch的方向上对同一层每一个神经元进行归一化,即同一层每个神经元具有不同的均值和方差。 layer normalization 是横向归一化,即同一层的所有神经元具有相同的均值和方差。 bn和ln的使用区别: 1.如果
阅读全文
posted @ 2019-08-14 15:46 太阳雨~
阅读(1814)
评论(0)
推荐(0)
2019年8月10日
nlp四大任务(分类、匹配、序列标注、文本生成)集成项目
摘要: 介绍 数据 快速开始 模块
阅读全文
posted @ 2019-08-10 16:05 太阳雨~
阅读(4319)
评论(0)
推荐(0)
公告