摘要:[TOC] 简介 通常,早期的信息抽取将实体抽取和关系抽取看作串联的任务,这样的串联模型在建模上相对更简单,但这样将实体识别和关系抽取当作两个独立的任务明显会存在一系列的问题: 两个任务的解决过程中没有考虑到两个子任务之间的相关性,从而导致关系抽取任务的结果严重依赖于实体抽取的结果,导致误差累积的问 阅读全文
posted @ 2019-12-16 16:34 西多士NLP 阅读 (348) 评论 (0) 编辑
摘要:[TOC] 简介 信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档 阅读全文
posted @ 2019-12-11 00:25 西多士NLP 阅读 (376) 评论 (0) 编辑
摘要:[TOC] 简介 2018年ELMo/GPT/BERT的相继提出,不断刷新了各大NLP任务排行榜,自此,NLP终于找到了一种方法,可以像计算机视觉那样进行迁移学习,被誉为NLP新时代的开端。 与计算机视觉领域预训练模型不同的是,其通过采用自监督学习的方法,将大量的无监督文本送入到模型中进行学习,即可 阅读全文
posted @ 2019-11-28 11:12 西多士NLP 阅读 (337) 评论 (0) 编辑
摘要:[TOC] 简介 写这篇博客主要是为了进一步了解如何将CNN当作Encoder结构来使用,同时这篇论文也是必看的论文之一。该论文证明了使用CNN作为特征抽取结构实现Seq2Seq,可以达到与 RNN 相接近甚至更好的效果,并且CNN的高并行能力能够大大减少我们的模型训练时间(本文对原文中不清晰的部分 阅读全文
posted @ 2019-11-17 16:42 西多士NLP 阅读 (106) 评论 (0) 编辑
摘要:[TOC] 简介 机器阅读理解(Machine Reading Comprehension)为自然语言处理的核心任务之一,也是评价模型理解文本能力的一项重要任务,其本质可以看作是一种句子关系匹配任务,其具体的预测结果与具体任务有关。 记录一下之后用来实践的数据集: 阅读理解任务具有多种类别:单项/多 阅读全文
posted @ 2019-11-07 12:57 西多士NLP 阅读 (605) 评论 (0) 编辑
摘要:[TOC] 前言 之前已经提到过好几次Attention的应用,但还未对Attention机制进行系统的介绍,这里对attention机制做一个概述,免得之后看阅读理解论文的时候被花式Attention弄的晕头转向。 Seq2Seq 注意力机制(Attention Mechanism)首先是用于解决 阅读全文
posted @ 2019-10-22 16:01 西多士NLP 阅读 (130) 评论 (0) 编辑
摘要:[TOC] 简介 通常,进行文本分类的主要方法有三种: 基于规则特征匹配的方法(如根据喜欢,讨厌等特殊词来评判情感,但准确率低,通常作为一种辅助判断的方法) 基于传统机器学习的方法(特征工程 + 分类算法) 给予深度学习的方法(词向量 + 神经网络) 自BERT提出以来,各大NLP比赛基本上已经被B 阅读全文
posted @ 2019-10-18 16:36 西多士NLP 阅读 (744) 评论 (0) 编辑
摘要:[TOC] 前言 在三大特征提取器中,我们已经接触了LSTM/CNN/Transormer三种特征提取器,这一节我们将介绍如何使用BiLSTM实现序列标注中的命名实体识别任务,以及Lattice LSTM的模型原理。 本文提到的模型在[我的Github][1]中均有相应代码实现(Lattice LS 阅读全文
posted @ 2019-10-07 14:36 西多士NLP 阅读 (410) 评论 (0) 编辑
摘要:[TOC] 简介 序列标注(Sequence Tagging)是一个比较简单的NLP任务,但也可以称作是最基础的任务。序列标注的涵盖范围是非常广泛的,可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等等。 对于分词相信看过之前博客的朋友都不陌生了,实际上网上已经有很多开 阅读全文
posted @ 2019-10-04 16:04 西多士NLP 阅读 (404) 评论 (0) 编辑
摘要:[TOC] 前言 在上一篇文章中,我们了解了词向量的相关内容。对于英文语料来说,直接根据空格或者标点即可对词记性划分。而对于中文语料,分词的方法就十分复杂了。之前在概述里提到过,在中文自然语言处理领域,不同的分词方法将使得同一个句子有不同的含义,如: “乒乓球拍/卖了” 和 “乒乓球/拍卖/了” “ 阅读全文
posted @ 2019-10-02 17:25 西多士NLP 阅读 (235) 评论 (0) 编辑