预训练语言模型 - 随笔分类 - 微笑sun

bert，albert的快速训练和预测

摘要：随着预训练模型越来越成熟，预训练模型也会更多的在业务中使用，本文提供了bert和albert的快速训练和部署，实际上目前的预训练模型在用起来时都大致相同。基于不久前发布的中文数据集chineseGLUE，将所有任务分成四大类：文本分类，句子对判断，实体识别，阅读理解。同类可以共享代码，除上面四个任阅读全文

posted @ 2019-11-18 15:15 微笑sun 阅读(4269) 评论(1) 推荐(1)

NLP中的预训练语言模型（五）—— ELECTRA

摘要：这是一篇还在双盲审的论文，不过看了之后感觉作者真的是很有创新能力，ELECTRA可以看作是开辟了一条新的预训练的道路，模型不但提高了计算效率，加快模型的收敛速度，而且在参数很小也表现的非常好。论文：ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINA 阅读全文

posted @ 2019-11-07 17:03 微笑sun 阅读(2268) 评论(0) 推荐(1)

NLP中的预训练语言模型（四）—— 小型化bert（DistillBert, ALBERT, TINYBERT）

摘要：bert之类的预训练模型在NLP各项任务上取得的效果是显著的，但是因为bert的模型参数多，推断速度慢等原因，导致bert在工业界上的应用很难普及，针对预训练模型做模型压缩是促进其在工业界应用的关键，今天介绍三篇小型化bert模型——DistillBert, ALBERT, TINYBERT。一，阅读全文

posted @ 2019-10-21 20:55 微笑sun 阅读(9868) 评论(0) 推荐(0)

NLP中的预训练语言模型（三）—— XL-Net和Transformer-XL

摘要：本篇带来XL-Net和它的基础结构Transformer-XL。在讲解XL-Net之前需要先了解Transformer-XL，Transformer-XL不属于预训练模型范畴，而是Transformer的扩展版，旨在解决Transformer的捕获长距离依赖信息的上限问题。接下来我们详细的介绍Tra 阅读全文

posted @ 2019-09-29 16:18 微笑sun 阅读(4733) 评论(3) 推荐(0)

NLP中的预训练语言模型（二）—— Facebook的SpanBERT和RoBERTa

摘要：本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。一，SpanBERT 论文：SpanBERT: Improving Pre-training by Representing and Predicting Spans GitHub：https://github.c 阅读全文

posted @ 2019-09-16 17:52 微笑sun 阅读(4830) 评论(0) 推荐(0)

NLP中的预训练语言模型（一）—— ERNIE们和BERT-wwm

摘要：随着bert在NLP各种任务上取得骄人的战绩，预训练模型在这不到一年的时间内得到了很大的发展，本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型，这一期先介绍几个国内开源的预训练模型。一，ERNIE（清华大学&华为诺亚）论文：ERNIE: Enhanced Language R 阅读全文

posted @ 2019-09-12 18:38 微笑sun 阅读(11590) 评论(0) 推荐(1)

微笑sun

随笔分类 - 预训练语言模型

公告