摘要:1,Introduction 当你想训练好一个神经网络时,你需要做好三件事情:一个合适的网络结构,一个合适的训练算法,一个合适的训练技巧: 合适的网络结构:包括网络结构和激活函数,你可以选择更深的卷积网络,然后引入残差连接。可以选择relu做为激活函数,也可以选择tanh,swish等。 合适的训练 阅读全文
posted @ 2020-01-09 20:43 微笑sun 阅读 (83) 评论 (0) 编辑
摘要:1,引言 现在的机器学习和深度学习任务都依赖于大量的标注数据来训练,而人类的学习过程并不是这样的,人类可以利用过去学得的知识,在新的问题上只需要少量的样例就可以学得很好。FSL就是这样一个任务,期待像人类一样,能利用一些先验知识,在新的问题上只需要少量样本。 2,概述 本节给出了FSL的定义,并且根 阅读全文
posted @ 2020-01-08 15:23 微笑sun 阅读 (43) 评论 (0) 编辑
摘要:1,概述 剪枝可以分为两种:一种是无序的剪枝,比如将权重中一些值置为0,这种也称为稀疏化,在实际的应用上这种剪枝基本没有意义,因为它只能压缩模型的大小,但很多时候做不到模型推断加速,而在当今的移动设备上更多的关注的是系统的实时相应,也就是模型的推断速度。另一种是结构化的剪枝,比如卷积中对channe 阅读全文
posted @ 2019-12-18 17:12 微笑sun 阅读 (59) 评论 (0) 编辑
摘要:1,概述 模型量化应该是现在最容易实现的模型压缩技术,而且也基本上是在移动端部署的模型的毕竟之路。模型量化基本可以分为两种:post training quantizated和quantization aware training。在pyrotch和tensroflow中都提供了相应的实现接口。 对 阅读全文
posted @ 2019-12-18 12:09 微笑sun 阅读 (170) 评论 (0) 编辑
摘要:1,概述 模型量化属于模型压缩的范畴,模型压缩的目的旨在降低模型的内存大小,加速模型的推断速度(除了压缩之外,一些模型推断框架也可以通过内存,io,计算等优化来加速推断)。 常见的模型压缩算法有:量化,剪枝,蒸馏,低秩近似以及紧凑模型设计(如mobileNet)等操作。但在这里有些方法只能起到缩减模 阅读全文
posted @ 2019-12-18 11:16 微笑sun 阅读 (146) 评论 (0) 编辑
摘要:句子对关系是NLP中非常常见的任务,例如句子相似度计算,自然语言推断等。句子对关系判断一般都两种模型:一是表示式模型,例如孪生网络,DSSM,这类模型的特点是将句子编码成向量,在编码时两个句子可以共享或不共享模型参数,之后再通过余弦,欧式距离等计算两个向量的距离,从而来表示两个句子的相关性;二是交互 阅读全文
posted @ 2019-11-19 14:27 微笑sun 阅读 (313) 评论 (0) 编辑
摘要:随着预训练模型越来越成熟,预训练模型也会更多的在业务中使用,本文提供了bert和albert的快速训练和部署,实际上目前的预训练模型在用起来时都大致相同。 基于不久前发布的中文数据集chineseGLUE,将所有任务分成四大类:文本分类,句子对判断,实体识别,阅读理解。同类可以共享代码,除上面四个任 阅读全文
posted @ 2019-11-18 15:15 微笑sun 阅读 (382) 评论 (0) 编辑
摘要:这是一篇还在双盲审的论文,不过看了之后感觉作者真的是很有创新能力,ELECTRA可以看作是开辟了一条新的预训练的道路,模型不但提高了计算效率,加快模型的收敛速度,而且在参数很小也表现的非常好。 论文:ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINA 阅读全文
posted @ 2019-11-07 17:03 微笑sun 阅读 (344) 评论 (0) 编辑
摘要:bert之类的预训练模型在NLP各项任务上取得的效果是显著的,但是因为bert的模型参数多,推断速度慢等原因,导致bert在工业界上的应用很难普及,针对预训练模型做模型压缩是促进其在工业界应用的关键,今天介绍三篇小型化bert模型——DistillBert, ALBERT, TINYBERT。 一, 阅读全文
posted @ 2019-10-21 20:55 微笑sun 阅读 (2057) 评论 (0) 编辑
摘要:本篇带来XL-Net和它的基础结构Transformer-XL。在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题。接下来我们详细的介绍Tra 阅读全文
posted @ 2019-09-29 16:18 微笑sun 阅读 (536) 评论 (2) 编辑