摘要:
https://www.jianshu.com/p/22e462f01d8c pre-train是迁移学习的基础,虽然Google已经发布了各种预训练好的模型,而且因为资源消耗巨大,自己再预训练也不现实(在Google Cloud TPU v2 上训练BERT-Base要花费近500刀,耗时达到两周 阅读全文
posted @ 2019-07-25 16:11
交流_QQ_2240410488
阅读(1280)
评论(0)
推荐(0)
摘要:
https://zhuanlan.zhihu.com/p/50773178 概述 本文基于 pytorch-pretrained-BERT(huggingface)版本的复现,探究如下几个问题: pytorch-pretrained-BERT的基本框架和使用 如何利用BERT将句子转为词向量 如何使 阅读全文
posted @ 2019-07-25 15:39
交流_QQ_2240410488
阅读(814)
评论(0)
推荐(0)
摘要:
https://zhuanlan.zhihu.com/c_153732961 阅读全文
posted @ 2019-07-25 15:16
交流_QQ_2240410488
阅读(564)
评论(0)
推荐(0)
摘要:
学习工具最快的方法就是在使用的过程中学习,也就是在工作中(解决实际问题中)学习。文章结尾处附完整代码。 一、数据准备 在Pytorch中提供了MNIST的数据,因此我们只需要使用Pytorch提供的数据即可。 from torchvision import datasets, transforms# 阅读全文
posted @ 2019-07-25 14:47
交流_QQ_2240410488
阅读(1535)
评论(0)
推荐(0)
摘要:
https://zhuanlan.zhihu.com/p/32626442 骆梁宸 paper插画师;poster设计师;oral slides制作人 骆梁宸 paper插画师;poster设计师;oral slides制作人 骆梁宸 paper插画师;poster设计师;oral slides制作 阅读全文
posted @ 2019-07-25 13:00
交流_QQ_2240410488
阅读(774)
评论(0)
推荐(0)
摘要:
Pytorch如何更新版本与卸载,使用pip,conda更新卸载Pytorch 2018年05月22日 07:33:52 醉雨轩Y 阅读数 19047 Pytorch如何更新版本与卸载,使用pip,conda更新卸载Pytorch 2018年05月22日 07:33:52 醉雨轩Y 阅读数 1904 阅读全文
posted @ 2019-07-25 12:58
交流_QQ_2240410488
阅读(1087)
评论(0)
推荐(0)
摘要:
最近读一个代码发现用了一个梯度更新方法, 刚开始还以为是什么奇奇怪怪的梯度下降法, 最后分析一下是用一阶梯度及其二次幂做的梯度更新。网上搜了一下, 果然就是称为Adam的梯度更新算法, 全称是:自适应矩估计(adaptive moment estimation) 国际惯例, 参考博文: 一文看懂各种 阅读全文
posted @ 2019-07-25 12:18
交流_QQ_2240410488
阅读(569)
评论(0)
推荐(0)
摘要:
深度炼丹如同炖排骨一般,需要先大火全局加热,紧接着中火炖出营养,最后转小火收汁。本文给出炼丹中的 “火候控制器”-- 学习率的几种调节方法,框架基于 pytorch 1. 自定义根据 epoch 改变学习率。 这种方法在开源代码中常见,此处引用 pytorch 官方实例中的代码 adjust_lr 阅读全文
posted @ 2019-07-25 11:12
交流_QQ_2240410488
阅读(1322)
评论(0)
推荐(0)
摘要:
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作 ℓ1 \ell_1ℓ 1 -norm 和 ℓ2 \ell_2ℓ 2 -norm,中文称作 L1正则化 和 L2正则化,或者 L1范数 和 L2范数。 L1正则化和L2 阅读全文
posted @ 2019-07-25 10:44
交流_QQ_2240410488
阅读(474)
评论(0)
推荐(0)
摘要:
**序言:**Adam自2014年出现之后,一直是受人追捧的参数训练神器,但最近越来越多的文章指出:Adam存在很多问题,效果甚至没有简单的SGD + Momentum好。因此,出现了很多改进的版本,比如AdamW,以及最近的ICLR-2018年最佳论文提出的Adam改进版Amsgrad。那么,Ad 阅读全文
posted @ 2019-07-25 10:33
交流_QQ_2240410488
阅读(3851)
评论(0)
推荐(0)
摘要:
Δw(t)=−ε ∂w(t)∂E +αΔw(t−1)(9) 我们知道反向传播每次迭代的效果是这样的:w=w+Δw(t) w=w+\Delta w(t)w=w+Δw(t) 我们知道,每条训练数据都会导致训练的过程中,计算一次∂E∂w(t) \frac{∂E}{∂w(t)} ∂w(t)∂E ,假如我 阅读全文
posted @ 2019-07-25 10:19
交流_QQ_2240410488
阅读(1884)
评论(0)
推荐(0)
摘要:
https://blog.csdn.net/wishchin/article/details/80567558 自动调参的Adam方法已经非常给力了,不过这主要流行于工程界,在大多数科学实验室中,模型调参依然使用了传统的SGD方法,在SGD基础上增加各类学习率的主动控制,以达到对复杂模型的精细调参, 阅读全文
posted @ 2019-07-25 09:53
交流_QQ_2240410488
阅读(899)
评论(0)
推荐(1)
摘要:
指数衰减学习率是先使用较大的学习率来快速得到一个较优的解,然后随着迭代的继续,逐步减小学习率,使得模型在训练后期更加稳定。在训练神经网络时,需要设置学习率(learning rate)控制参数的更新速度,学习速率设置过小,会极大降低收敛速度,增加训练时间;学习率太大,可能导致参数在最优解两侧来回振荡 阅读全文
posted @ 2019-07-25 08:48
交流_QQ_2240410488
阅读(869)
评论(0)
推荐(0)

浙公网安备 33010602011771号