随笔分类 -  NLP

摘要:参考:机器之心 论文:Pre-trained Models for Natural Language Processing: A Survey 首先简要介绍了语言表示学习及相关研究进展; 其次从四个方面对现有 PTM (Pre-trained Model) 进行系统分类(Contextual、Arc 阅读全文
posted @ 2020-03-22 16:39 山竹小果 阅读(4015) 评论(0) 推荐(0)
摘要:MobileBert: 自下而上的知识转移: 将 Bottleneck BERT-LARGE teacher 的知识传递给student。 先训练teacher,然后逐步从下网上训练student,要求它一层一层地模仿teacher。 知识转移的渐进过程分为L个阶段,其中L为层数。图2展示了渐进式知 阅读全文
posted @ 2020-03-16 13:10 山竹小果 阅读(1035) 评论(2) 推荐(0)
摘要:结合/融合/整合 (integration/ combination/ fusion)多个机器学习模型往往可以提高整体的预测能力。这是一种非常有效的提升手段,在多分类器系统(multi-classifier system)和集成学习(ensemble learning)中,融合都是最重要的一个步骤。 阅读全文
posted @ 2020-03-15 12:22 山竹小果 阅读(1002) 评论(0) 推荐(0)
摘要:模型压缩相关 [github code] 本文研究对BERT的剪枝。结论:BERT可以在预训练时进行一次修剪,而不是在不影响性能的情况下对每个任务进行单独修剪。 针对不同水平的修剪: 低水平的修剪(30-40%)根本不会增加训练前的损失或影响下游任务的转移。中等水平的修剪会增加训练前的损失,并阻止有 阅读全文
posted @ 2020-03-13 17:41 山竹小果 阅读(818) 评论(1) 推荐(1)
摘要:Transefomer-based 的预处理模型往往很消耗资源,对运算性能要求极高,还有严格的延迟需求。 潜在补救方法:模型压缩。 这篇文章主要讲如何压缩Transformers,重点关注BERT。使用不同的方法对attention层 全连接层等不同部分的压缩会有不同的效果,来看看作者后面怎么说。 阅读全文
posted @ 2020-03-12 18:27 山竹小果 阅读(1195) 评论(0) 推荐(0)
摘要:模型压缩可减少受训神经网络的冗余,由于几乎没有 BERT 或者 BERT-Large 模型可直接在 GPU 及智能手机上应用,因此模型压缩方法对于 BERT 的未来的应用前景而言,非常有价值。 一、压缩方法 1、剪枝——即训练后从网络中去掉不必要的部分。 这包括权重大小剪枝、注意力头剪枝、网络层以及 阅读全文
posted @ 2020-03-12 12:10 山竹小果 阅读(1131) 评论(0) 推荐(0)
摘要:AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积, 对于二分类模型,还有很多其他评价指标,比如 logloss,accuracy,precision。如果你经常关注数据挖掘比赛,比如 kaggle,那你会发现 AUC 和 logloss 基本是最 阅读全文
posted @ 2020-03-11 16:30 山竹小果 阅读(3447) 评论(0) 推荐(1)
摘要:[github] [参考] 作者提出了HCAN (Hybrid Co-Attention Network),包含: (1)混合编码模块:CNN与LSTM混合的encoder; (2)多粒度的相关性匹配模块; (3)co-attention的语义匹配模块 背景 两类匹配模型未必能混用,语义匹配强调意思 阅读全文
posted @ 2020-03-02 17:19 山竹小果 阅读(1352) 评论(0) 推荐(0)
摘要:参考:机器之心 机器学习和自然语言处理领域 10 个影响巨大的有趣研究方向: 通用无监督预训练(Universal unsupervised pretraining) 彩票(Lottery tickets)假设 神经正切核(The Neural Tangent Kernel) 无监督多语言学习(Un 阅读全文
posted @ 2020-02-05 14:58 山竹小果 阅读(632) 评论(0) 推荐(1)
摘要:简介 对于文本风格迁移,先举个例子: Input:谢谢 Output(金庸): 多谢之至 Input: 再见 Output(金庸): 别过! Input:请问您贵性? Output(金庸): 请教阁下尊姓大名? 再泼个冷水: 目前自然语言生成(NLG)领域的研究还不太实用,所以希望像人一样先理解句子 阅读全文
posted @ 2020-01-10 15:49 山竹小果 阅读(6666) 评论(1) 推荐(1)
摘要:简介 序列标注(Sequence Tagging)是一个比较简单的NLP任务,但也可以称作是最基础的任务。序列标注的涵盖范围是非常广泛的,可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等等。 有很多开源的中文分词工具,jieba、pkuseg、pyhanlp... 序 阅读全文
posted @ 2019-12-30 20:05 山竹小果 阅读(14200) 评论(0) 推荐(3)
摘要:0 简述 Transformer最大的问题:在语言建模时的设置受到固定长度上下文的限制。 本文提出的Transformer-XL,使学习不再仅仅依赖于定长,且不破坏时间的相关性。 Transformer-XL包含segment-level 循环机制和positional编码框架。不仅可以捕捉长时依赖 阅读全文
posted @ 2019-12-14 21:40 山竹小果 阅读(1341) 评论(0) 推荐(1)
摘要:整理一些自己需要打卡的学习资料。 阅读全文
posted @ 2019-12-12 17:16 山竹小果 阅读(631) 评论(0) 推荐(1)
摘要:简述 在文本语义相似度等句子对的回归任务上,BERT , RoBERTa 拿到sota。 但是,它要求两个句子都被输入到网络中,从而导致巨大开销:从10000个句子集合中找到最相似的sentence-pair需要进行大约5000万个推理计算(约65小时)。 BERT不适合语义相似度搜索,也不适合非监 阅读全文
posted @ 2019-12-11 22:47 山竹小果 阅读(7942) 评论(0) 推荐(2)
摘要:1. 自然地使用[CLS] 2. cosine similairity 3. 长短文本的区别 4. sentence/word embedding 5. siamese network 方式 1. 自然地使用[CLS] BERT可以很好的解决sentence-level的建模问题,它包含叫做Next 阅读全文
posted @ 2019-12-11 11:08 山竹小果 阅读(25504) 评论(2) 推荐(5)
摘要:更新中 更新时间:2019-12-06 17:43:27 实验需要,在自己学习的过程中做如下笔记,欢迎指正,欢迎交流。 1. ERNIE简述 ERNIE和BERT一样,也是基于transformer来做,但最重要的不同点是:bert对word做mask,而ernie对命名实体和短语做mask,捕捉更 阅读全文
posted @ 2019-12-06 17:48 山竹小果 阅读(2065) 评论(0) 推荐(0)
摘要:值得看: 刘铁岩老师的《Learning to Rank for Information Retrieval》和李航老师的《Learning to rank for information retrieval and natural language processing》 https://blog 阅读全文
posted @ 2019-12-05 14:21 山竹小果 阅读(3870) 评论(0) 推荐(0)
摘要:更新中 更新时间: 2019-12-03 18:29:52 写在前面: 本人是喜欢这个方向的学生一枚,写文的目的意在记录自己所学,梳理自己的思路,同时share给在这个方向上一起努力的同学。写得不够专业的地方望批评指正,欢迎感兴趣的同学一起交流进步。 (参考文献在第四部分,侵删) 一、背景 二、基本 阅读全文
posted @ 2019-12-02 16:12 山竹小果 阅读(21370) 评论(1) 推荐(0)
摘要:1. 定义对话系统 2. 富集数据资源 3. 搭建系统、训练、评估和调优 代码工程实现 第三方工具实现 4. 系统接入:全渠道API接入 切换人工的过渡;通过用户的评价进一步优化系统。 5. 运营迭代 总结: 介绍一下百度的UNIT。 阅读全文
posted @ 2019-12-01 18:37 山竹小果 阅读(488) 评论(0) 推荐(0)
摘要:任务型 - 》参数化请求 问答型 有明确目标 用户说的话有明确的参数化请求。 预先设置好的问答。 匹配的问答对。 任务+问答 不必拘泥于一种类型,才会更加智能。 阅读全文
posted @ 2019-12-01 17:42 山竹小果 阅读(696) 评论(0) 推荐(0)