基于DL的文本分类综述

 

1.文本分类任务 

1.1 情感分类

主要是分析文本中人的情感,比如产品评论、电影评论、推特,提取文本的极性和观点,包括二分类或者多分类。

1.2 新闻分类

新闻分类系统可以帮助用户实时获取感兴趣的信息。 识别新兴新闻主题并根据用户兴趣推荐相关新闻是新闻分类的两个主要应用。

1.3 主题分析

主题分析试图通过识别文本主题来自动从文本中获取含义。主题分类是主题分析最重要的组成技术之一。 主题分类的目的是为每个文档分配一个或多个主题,以使其更易于分析。

1.4 问答系统

问答系统有两种类型:抽取式和生成式。抽取式问答可以看作是文本分类的一个特例。给定一个问题和一组候选答案(例如,SQuAD中给定文档中的文本跨度),我们需要将每个候选答案分类为正确或不正确。生成性质量保证学着从头开始生成答案(例如使用序列到序列模型)。除非另有说明,本文中讨论的QA任务是抽取式QA。

1.5 自然语言推理

NLI,也称为识别文本蕴含(RTE),可预测是否可以从另一文本推断出文本的含义。 特别是,系统需要为每对文本单元分配一个标签,例如包含,矛盾和中性[7]。 释义是NLI的一种广义形式,也称为文本对比较。 任务是测量一个句子对的语义相似性,以确定一个句子是否是另一个句子的释义。

//这个就有点像kaggle的那个比赛,判断Quara的提问的问题是否相似,也就很像知乎判断的两个提问是否涵义相同。

2.深度模型

  • 基于前馈神经网络的,将文本视为词袋;
  • 基于RNN的模型,这些模型将文本视为单词序列,旨在捕获单词相关性和文本结构;
  • 基于CNN的模型,经过训练识别文本中的模式(例如关键短语)以进行分类
  • 胶囊网络解决了CNN的池化操作导致的信息丢失问题,最近已应用于文本分类;
  • 注意机制有效地识别文本中的相关单词,并已成为开发深度学习模型的有用工具;
  • 记忆增强网络,将神经网络与外部记忆形式结合在一起;
  • Transformers,比RNN允许更多的并行化,从而可以使用GPU集群有效地(预)训练非常大的语言模型;
  • 图神经网络,旨在捕获自然语言的内部图结构,例如句法和语义解析树;
  • 暹Siamese罗神经网络,用于文本匹配,是文本分类的一种特殊情况;
  • 混合模型,结合注意力,RNN,CNN等以捕获句子和文档的局部和全局特征;
  • 无监督学习:自动编码器和对抗训练以及强化学习。

 

posted @ 2020-06-04 14:24  lypbendlf  阅读(251)  评论(0编辑  收藏  举报