基于DL的文本分类综述

1.文本分类任务

主要是分析文本中人的情感，比如产品评论、电影评论、推特，提取文本的极性和观点，包括二分类或者多分类。

新闻分类系统可以帮助用户实时获取感兴趣的信息。识别新兴新闻主题并根据用户兴趣推荐相关新闻是新闻分类的两个主要应用。

主题分析试图通过识别文本主题来自动从文本中获取含义。主题分类是主题分析最重要的组成技术之一。主题分类的目的是为每个文档分配一个或多个主题，以使其更易于分析。

问答系统有两种类型:抽取式和生成式。抽取式问答可以看作是文本分类的一个特例。给定一个问题和一组候选答案(例如，SQuAD中给定文档中的文本跨度)，我们需要将每个候选答案分类为正确或不正确。生成性质量保证学着从头开始生成答案(例如使用序列到序列模型)。除非另有说明，本文中讨论的QA任务是抽取式QA。

NLI，也称为识别文本蕴含（RTE），可预测是否可以从另一文本推断出文本的含义。特别是，系统需要为每对文本单元分配一个标签，例如包含，矛盾和中性[7]。释义是NLI的一种广义形式，也称为文本对比较。任务是测量一个句子对的语义相似性，以确定一个句子是否是另一个句子的释义。

//这个就有点像kaggle的那个比赛，判断Quara的提问的问题是否相似，也就很像知乎判断的两个提问是否涵义相同。

posted @ 2020-06-04 14:24 lypbendlf 阅读(290) 评论(0) 收藏举报

刷新页面返回顶部