随笔分类 -  预训练语言模型

摘要:随着预训练模型越来越成熟,预训练模型也会更多的在业务中使用,本文提供了bert和albert的快速训练和部署,实际上目前的预训练模型在用起来时都大致相同。 基于不久前发布的中文数据集chineseGLUE,将所有任务分成四大类:文本分类,句子对判断,实体识别,阅读理解。同类可以共享代码,除上面四个任 阅读全文
posted @ 2019-11-18 15:15 微笑sun 阅读(4269) 评论(1) 推荐(1)
摘要:这是一篇还在双盲审的论文,不过看了之后感觉作者真的是很有创新能力,ELECTRA可以看作是开辟了一条新的预训练的道路,模型不但提高了计算效率,加快模型的收敛速度,而且在参数很小也表现的非常好。 论文:ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINA 阅读全文
posted @ 2019-11-07 17:03 微笑sun 阅读(2268) 评论(0) 推荐(1)
摘要:bert之类的预训练模型在NLP各项任务上取得的效果是显著的,但是因为bert的模型参数多,推断速度慢等原因,导致bert在工业界上的应用很难普及,针对预训练模型做模型压缩是促进其在工业界应用的关键,今天介绍三篇小型化bert模型——DistillBert, ALBERT, TINYBERT。 一, 阅读全文
posted @ 2019-10-21 20:55 微笑sun 阅读(9868) 评论(0) 推荐(0)
摘要:本篇带来XL-Net和它的基础结构Transformer-XL。在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题。接下来我们详细的介绍Tra 阅读全文
posted @ 2019-09-29 16:18 微笑sun 阅读(4733) 评论(3) 推荐(0)
摘要:本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。 一,SpanBERT 论文:SpanBERT: Improving Pre-training by Representing and Predicting Spans GitHub:https://github.c 阅读全文
posted @ 2019-09-16 17:52 微笑sun 阅读(4830) 评论(0) 推荐(0)
摘要:随着bert在NLP各种任务上取得骄人的战绩,预训练模型在这不到一年的时间内得到了很大的发展,本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型,这一期先介绍几个国内开源的预训练模型。 一,ERNIE(清华大学&华为诺亚) 论文:ERNIE: Enhanced Language R 阅读全文
posted @ 2019-09-12 18:38 微笑sun 阅读(11590) 评论(0) 推荐(1)