随笔分类 - 自然语言处理
摘要:Motivation 以前的模型大多都只依赖于encoder或关注于decoder,分别对于生成和理解任务是次优的; 此外,大多数现有的方法把code看作是像NL这样的标记序列,只是在其上采用传统的NLP预训练技术,这在很大程度上忽略了代码中丰富的结构性信息,而这对于完全理解代码的语义至关重要 In
阅读全文
摘要:Motivation 虽然语言建模方面,NLP模型表现很好,但是在逻辑推理和数值计算领域(称其为第二类任务,system-2 task),即使是目前最大的模型也难以处理某些推理任务,如数学单词问题、符号操作和常识性推理。 本文探讨了语言模型产生一个连贯的思维链的能力——一系列的短句子,模仿一个人在回
阅读全文
摘要:Motivation 现有的方法是在训练前阶段或微调阶段利用文本的语法,使这两个阶段之间存在差异。 Existing methods utilize syntax of text either in the pre-training stage or in the fine-tuning stage
阅读全文
摘要:原文链接 Neural Module Networks(NMNs) 在本文中,作者将传统NMNs扩展于从段落式的文本中进行统计计算等。 考虑如图1所示的情景,多步推理需要回答下面的问题: 找到段落中所有“field goal”的实体。 选择在“第二节”中的。 找到它们的长度。 计算最长长度。 找到“
阅读全文
摘要:原文链接 motivation 本文研究发现,BERT等预训练模型经常会关注文本的语义特征进行推理,而不是去学习句子表达的逻辑。 COPA COPA任务关注于寻找给定前提(premise)的情况下的因(causal)或果(effect),如下面的例子。 Premise: The man broke
阅读全文
摘要:原文链接 motivation 基于远程监督的NER方法(DS-NER)通过通过在普通话文本匹配字典中的实体,自动的生成训练数据,训练NER模型,减少了标注成本。 然而,DS-NER是存在字典偏差的,这严重地影响了模型的泛化型和鲁棒性。具体来讲,实体字典通常都是不完整的(缺少实体),含有噪音(有错误
阅读全文
摘要:Motivation 在命名体识别领域,由于选择偏差的存在,模型对于训练和测试分布不一样的数据表现很差,这背后的原因就是模型学习了数据中表现出的虚假因果关系。在这篇文章中,我们从因果角度主要研究NER问题中的虚假关联。我们将这个问题拆解成两部分:实体和上下文。考虑句子“John lives in N
阅读全文
摘要:介绍 自然语言生成指的是从语义解析生成语言描述如逻辑表格、AMR和SQL查询等格式化的输入表达,由于它对最新的自然语言交互的可解释性和使用性的潜在贡献,这项任务吸引了广泛的注意。最近,如BERT、T5一样的大规模预训练已经提高从规则化文本生成自然语言的能力到了一个在流畅度和连贯性都非常有希望的高度。
阅读全文
摘要:原文地址 介绍 数据到文本的生成方法指的是从非文本的输入中生成描述性文本的任务。输入种类不同,任务可以定义地更加明确,比如摘要信息生成文本,信息框生成文本,图生成文本。 在这些任务中,我们关注逻辑表到文本的生成任务,这项任务旨在从表格生成流畅的但是逻辑正确的文本。而逻辑推理是一种高级的智能,这对现实
阅读全文
摘要:原文连接 介绍 结构化数据自然语言生成在很多应用中都是重要的研究领域,最近的数据驱动方法在自然语言生成领域已经取得了很好的表现。然而,大多数研究都关注于简单记录的浅层描述,比如,非常有限或固定模式下的属性值对,比如E2E。在真实世界的多行表格场景中,更需要的是从数据记录中推理出更高级别的逻辑并生成描
阅读全文
摘要:摘要 本文针对的话题是关于使用反事实增强数据来提高模型效果,使用简单的因果模型结构来分析观测噪音对模型表现的影响,并且研究了两种自动生成反事实数据的方法和人为去生成有什么区别。 本文提出了一个猜想: 如果把人为标注的因果特征修改为随机噪音,那么在跨域实验效果会变差,而原始数据影响不大 如果把认为表述
阅读全文
摘要:声明 本文原文来自于:arxiv 介绍 在大语料上训练的预训练模型可以学习得到通用的语言表达知识,对很多下游任务表现有帮助。随着算力的提升、训练方法越来越强,这些模型也越来越深。 第一代预训练模型学习词嵌入模型,由于模型本身不会用在后面的任务中,因此大多比较浅; 第二代预训练模型关注结合上下文语境的
阅读全文
摘要:经常做NLP任务,要想获得好一点的准确率,需要一个与训练好的embedding模型。 参考:github Install pip install pytorch-pretrained-bert Usage BertTokenizer BertTokenizer会分割输入的句子,便于后面嵌入。 imp
阅读全文
摘要:ABCNN是将注意力机制应用在卷积网络中的模型,在 answer selection(AS)、paraphrase identification(PI)和textual entailment(TE)等领域有很大价值。
阅读全文
摘要:概述 深度结构化语义模型(Deep Structed Semantic Models),可用于匹配搜索问题和搜索答案,即匹配 query-doc 对。 DSSM 可分为输入层、表示层、匹配层。 输入层 输入层负责将输入句子转化为数据向量。传统方法一般是做独热编码,然而这里为了减小数据量并对没有在训练
阅读全文
摘要:论文地址: "https://arxiv.org/abs/1911.04474" Abstract BiLSTMs结构在NLP的任务中广泛应用,最近,全连接模型Transformer大火,它的 self attention 机制和强大的并行计算能力使其在众多模型中脱颖而出,但是,原始版本的 Tran
阅读全文
摘要:世界上有这么多 word embedding,都有啥区别啊?ELMO,BERT这都是啥? "李宏毅老师 YouTube 课程" 为什么要 Embedding one hot 编码占据大量的运算空间,基本都是0,空间利用率很低,且运算速度很慢 不能充分表现词与词之间的联系,one hot 表现出的词都
阅读全文
摘要:前言 看论文 "TENER: Adapting Transformer Encoder for Named Entity Recognition" 的实现,发现不了解fastNLP看起来挺费劲,而且这一套好像也挺好用,有必要学一下,特此做fastNLP学习笔记。 "原官方中文教程在这里。" 这一章是
阅读全文
摘要:"Structured Learning 4: Sequence Labeling on YouTube" 序列标注是一种在NLP中很基础但是也很重要的任务。以POS词性标注为例,输入是一个句子,输出是每个单词的词性。 如果每个单词只有一种词性,我们可以简单的做一个hash table,读到单词直接
阅读全文
摘要:What is TRANSFORMER? 今天学一下~~变形金刚~~,transformer是一个很有用的模型,尤其会为我们后面学习 "BERT model" 打好基础。文章如有不当之处,请不吝赐教。下面来看一下这个神奇的工具吧。 李宏毅老师transformer课程:https://www.you
阅读全文

浙公网安备 33010602011771号