MapleTx - 博客园

2022年5月8日

摘要： einsum函数说明 pytorch文档说明：$torch.einsum(equation, **operands)$ 使用基于爱因斯坦求和约定的符号，将输入operands的元素沿指定的维数求和。einsum允许计算许多常见的多维线性代数阵列运算，方法是基于爱因斯坦求和约定以简写格式表示它们。主要阅读全文

posted @ 2022-05-08 11:50 MapleTx 阅读(5595) 评论(0) 推荐(0)

2022年5月7日

ptorch常用代码梯度篇（梯度裁剪、梯度累积、冻结预训练层等）

摘要：梯度裁剪（Gradient Clipping）在训练比较深或者循环神经网络模型的过程中，我们有可能发生梯度爆炸的情况，这样会导致我们模型训练无法收敛。我们可以采取一个简单的策略来避免梯度的爆炸，那就是梯度截断 Clip, 将梯度约束在某一个区间之内，在训练的过程中，在优化器更新之前进行梯度截断操阅读全文

posted @ 2022-05-07 17:15 MapleTx 阅读(4593) 评论(0) 推荐(1)

2022年4月11日

BERT如何进化-预训练语言模型研究进展【1】

摘要：模型结构演进本文以演进方向和目的为线索梳理了一些我常见到但不是很熟悉的预训练语言模型，首先来看看“完全版的BERT”：**RoBERTa: A Robustly Optimized BERT Pretraining Approach（2019）**可看成是完全体的BERT，主要3方面改进，首先采用阅读全文

posted @ 2022-04-11 21:25 MapleTx 阅读(748) 评论(0) 推荐(0)

Loading

苑无违的博客

衣沾不足惜

公告