上一页 1 2 3 4 5 6 7 8 ··· 13 下一页
摘要: bert之类的预训练模型在NLP各项任务上取得的效果是显著的,但是因为bert的模型参数多,推断速度慢等原因,导致bert在工业界上的应用很难普及,针对预训练模型做模型压缩是促进其在工业界应用的关键,今天介绍三篇小型化bert模型——DistillBert, ALBERT, TINYBERT。 一, 阅读全文
posted @ 2019-10-21 20:55 微笑sun 阅读(8324) 评论(0) 推荐(0) 编辑
摘要: 本篇带来XL-Net和它的基础结构Transformer-XL。在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题。接下来我们详细的介绍Tra 阅读全文
posted @ 2019-09-29 16:18 微笑sun 阅读(4268) 评论(3) 推荐(0) 编辑
摘要: 1,概述 神经网络中的权值初始化方法有很多,但是这些方法的设计也是遵循一些逻辑的,并且也有自己的适用场景。首先我们假定输入的每个特征是服从均值为0,方差为1的分布(一般输入到神经网络的数据都是要做归一化的,就是为了达到这个条件)。 为了使网络中的信息更好的传递,每一层的特征的方差应该尽可能相等,如果 阅读全文
posted @ 2019-09-24 15:17 微笑sun 阅读(4651) 评论(0) 推荐(0) 编辑
摘要: 本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。 一,SpanBERT 论文:SpanBERT: Improving Pre-training by Representing and Predicting Spans GitHub:https://github.c 阅读全文
posted @ 2019-09-16 17:52 微笑sun 阅读(4519) 评论(0) 推荐(0) 编辑
摘要: 随着bert在NLP各种任务上取得骄人的战绩,预训练模型在这不到一年的时间内得到了很大的发展,本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型,这一期先介绍几个国内开源的预训练模型。 一,ERNIE(清华大学&华为诺亚) 论文:ERNIE: Enhanced Language R 阅读全文
posted @ 2019-09-12 18:38 微笑sun 阅读(11140) 评论(0) 推荐(1) 编辑
摘要: 我们下载下来的预训练的bert模型的大小大概是400M左右,但是我们自己预训练的bert模型,或者是我们在开源的bert模型上fine-tuning之后的模型的大小大约是1.1G,我们来看看到底是什么原因造成的,首先我们可以通过下一段代码来输出我们训练好的模型的参数变量。 下面这段代码可以输出我们下 阅读全文
posted @ 2019-08-28 11:24 微笑sun 阅读(4827) 评论(0) 推荐(0) 编辑
摘要: 1,概述 目前有效的文本分类方法都是建立在具有大量的标签数据下的有监督学习,例如常见的textcnn,textrnn等,但是在很多场景下的文本分类是无法提供这么多训练数据的,比如对话场景下的意图识别,这个时候如果我们还以传统的深度学习模型+softmax的形式来分类的话,是极容易陷入过拟合的状态。因 阅读全文
posted @ 2019-08-13 17:38 微笑sun 阅读(19016) 评论(2) 推荐(3) 编辑
摘要: 1,概述 在NLP中孪生网络基本是用来计算句子间的语义相似度的。其结构如下 在计算句子语义相似度的时候,都是以句子对的形式输入到网络中,孪生网络就是定义两个网络结构分别来表征句子对中的句子,然后通过曼哈顿距离,欧式距离,余弦相似度等来度量两个句子之间的空间相似度。 孪生网络又可以分为孪生网络和伪孪生 阅读全文
posted @ 2019-07-17 14:45 微笑sun 阅读(11595) 评论(0) 推荐(0) 编辑
摘要: 一,概述 在自然语言生成的任务中,大部分是基于seq2seq模型实现的(除此之外,还有语言模型,GAN等也能做文本生成),例如生成式对话,机器翻译,文本摘要等等,seq2seq模型是由encoder,decoder两部分组成的,其标准结构如下: 原则上encoder,decoder可以由CNN,RN 阅读全文
posted @ 2019-07-08 15:11 微笑sun 阅读(25807) 评论(0) 推荐(0) 编辑
摘要: 1,概述 关于任务型对话的简介看任务型对话(一)—— NLU(意识识别和槽值填充)。 首先我们来看下对话状态和DST的定义。 对话状态:在$t$时刻,结合当前的对话历史和当前的用户输入来给出当前每个slot的取值的概率分布情况,作为DPL的输入,此时的对话状态表示为$S_t$。 DST(对话状态追踪 阅读全文
posted @ 2019-04-30 18:35 微笑sun 阅读(11145) 评论(1) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 13 下一页