会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
苑无违的博客
衣沾不足惜
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
2022年5月8日
优雅地实现多头自注意力——使用einsum(爱因斯坦求和)进行矩阵运算
摘要: einsum函数说明 pytorch文档说明:$torch.einsum(equation, **operands)$ 使用基于爱因斯坦求和约定的符号,将输入operands的元素沿指定的维数求和。einsum允许计算许多常见的多维线性代数阵列运算,方法是基于爱因斯坦求和约定以简写格式表示它们。主要
阅读全文
posted @ 2022-05-08 11:50 MapleTx
阅读(5595)
评论(0)
推荐(0)
2022年5月7日
ptorch常用代码梯度篇(梯度裁剪、梯度累积、冻结预训练层等)
摘要: 梯度裁剪(Gradient Clipping) 在训练比较深或者循环神经网络模型的过程中,我们有可能发生梯度爆炸的情况,这样会导致我们模型训练无法收敛。 我们可以采取一个简单的策略来避免梯度的爆炸,那就是梯度截断 Clip, 将梯度约束在某一个区间之内,在训练的过程中,在优化器更新之前进行梯度截断操
阅读全文
posted @ 2022-05-07 17:15 MapleTx
阅读(4593)
评论(0)
推荐(1)
2022年4月11日
BERT如何进化-预训练语言模型研究进展【1】
摘要: 模型结构演进 本文以演进方向和目的为线索梳理了一些我常见到但不是很熟悉的预训练语言模型,首先来看看“完全版的BERT”:**RoBERTa: A Robustly Optimized BERT Pretraining Approach(2019)**可看成是完全体的BERT,主要3方面改进,首先采用
阅读全文
posted @ 2022-04-11 21:25 MapleTx
阅读(748)
评论(0)
推荐(0)
上一页
1
2
公告