上一页 1 2 3 4 5 6 ··· 11 下一页
摘要:1,概述 模型量化属于模型压缩的范畴,模型压缩的目的旨在降低模型的内存大小,加速模型的推断速度(除了压缩之外,一些模型推断框架也可以通过内存,io,计算等优化来加速推断)。 常见的模型压缩算法有:量化,剪枝,蒸馏,低秩近似以及紧凑模型设计(如mobileNet)等操作。但在这里有些方法只能起到缩减模 阅读全文
posted @ 2019-12-18 11:16 微笑sun 阅读(5316) 评论(0) 推荐(0) 编辑
摘要:句子对关系是NLP中非常常见的任务,例如句子相似度计算,自然语言推断等。句子对关系判断一般都两种模型:一是表示式模型,例如孪生网络,DSSM,这类模型的特点是将句子编码成向量,在编码时两个句子可以共享或不共享模型参数,之后再通过余弦,欧式距离等计算两个向量的距离,从而来表示两个句子的相关性;二是交互 阅读全文
posted @ 2019-11-19 14:27 微笑sun 阅读(2136) 评论(0) 推荐(0) 编辑
摘要:随着预训练模型越来越成熟,预训练模型也会更多的在业务中使用,本文提供了bert和albert的快速训练和部署,实际上目前的预训练模型在用起来时都大致相同。 基于不久前发布的中文数据集chineseGLUE,将所有任务分成四大类:文本分类,句子对判断,实体识别,阅读理解。同类可以共享代码,除上面四个任 阅读全文
posted @ 2019-11-18 15:15 微笑sun 阅读(3067) 评论(0) 推荐(1) 编辑
摘要:这是一篇还在双盲审的论文,不过看了之后感觉作者真的是很有创新能力,ELECTRA可以看作是开辟了一条新的预训练的道路,模型不但提高了计算效率,加快模型的收敛速度,而且在参数很小也表现的非常好。 论文:ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINA 阅读全文
posted @ 2019-11-07 17:03 微笑sun 阅读(1414) 评论(0) 推荐(0) 编辑
摘要:bert之类的预训练模型在NLP各项任务上取得的效果是显著的,但是因为bert的模型参数多,推断速度慢等原因,导致bert在工业界上的应用很难普及,针对预训练模型做模型压缩是促进其在工业界应用的关键,今天介绍三篇小型化bert模型——DistillBert, ALBERT, TINYBERT。 一, 阅读全文
posted @ 2019-10-21 20:55 微笑sun 阅读(4696) 评论(0) 推荐(0) 编辑
摘要:本篇带来XL-Net和它的基础结构Transformer-XL。在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题。接下来我们详细的介绍Tra 阅读全文
posted @ 2019-09-29 16:18 微笑sun 阅读(3079) 评论(3) 推荐(0) 编辑
摘要:1,概述 神经网络中的权值初始化方法有很多,但是这些方法的设计也是遵循一些逻辑的,并且也有自己的适用场景。首先我们假定输入的每个特征是服从均值为0,方差为1的分布(一般输入到神经网络的数据都是要做归一化的,就是为了达到这个条件)。 为了使网络中的信息更好的传递,每一层的特征的方差应该尽可能相等,如果 阅读全文
posted @ 2019-09-24 15:17 微笑sun 阅读(3335) 评论(0) 推荐(0) 编辑
摘要:本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。 一,SpanBERT 论文:SpanBERT: Improving Pre-training by Representing and Predicting Spans GitHub:https://github.c 阅读全文
posted @ 2019-09-16 17:52 微笑sun 阅读(3184) 评论(0) 推荐(0) 编辑
摘要:随着bert在NLP各种任务上取得骄人的战绩,预训练模型在这不到一年的时间内得到了很大的发展,本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型,这一期先介绍几个国内开源的预训练模型。 一,ERNIE(清华大学&华为诺亚) 论文:ERNIE: Enhanced Language R 阅读全文
posted @ 2019-09-12 18:38 微笑sun 阅读(7089) 评论(0) 推荐(0) 编辑
摘要:我们下载下来的预训练的bert模型的大小大概是400M左右,但是我们自己预训练的bert模型,或者是我们在开源的bert模型上fine-tuning之后的模型的大小大约是1.1G,我们来看看到底是什么原因造成的,首先我们可以通过下一段代码来输出我们训练好的模型的参数变量。 下面这段代码可以输出我们下 阅读全文
posted @ 2019-08-28 11:24 微笑sun 阅读(3595) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 11 下一页