《基于神经网络的机器阅读理解综述_顾迎捷》软件学报

读这篇论文主要是要了解一下目前文本理解的研究现状，

带着一个疑问：文本理解和机器阅读理解的关系，这两者到底是一个东西还是不同的东西？文本理解包含机器阅读理解，还是二者就是同一个方向的不同叫法。

不敢问老师，所以先自己找答案吧！

1. 神经网络机器阅读理解(MRC)发展的前提是数据集的提出，数据集推动了机器学习模型的发展，一些数据集列举如下：

完形填空类型：CNN/Daily Mail（2015年提出新型大规模训练数据集）

第一个包含大规模自然语言问题的阅读理解数据集：SAuAD（Stanford Question Answering Dataset）

抽取式数据集：TriviaQA, WikiQA, NewsQA, SQuAD2.0, SearchQA；

多项选择数据集：SciQ, ARC, RACE, TQA, MCScript；

完形填空数据集：CBT, CLOTH；网络模型->

会话型数据集：CoQA, QuAC, CSQA, SQA, CQA；

生成式型数据集：NarrativeQA, MSMARCO；

多跳推理数据集：HotpotQA。

代表性的中文领域的MRC数据集列举如下：

完形填空型数据集：PeopleDaily/CFT;

生成式型数据集：DuReader

各大规模的MRC数据集的提出推动着神经阅读理解模型的发展：

简单记忆网络模型->match-LSTM+Ptr-Net模型->通用四层架构->Transformer架构

2. 机器阅读理解任务，可以形式化为将一个有监督的学习问题：给出一个三元组的训练数据：（C, Q, A）段落、问题、答案，目标是学习一个预测器f，能够将段落C与问题Q作为输入，返回一个法案A作为输出： f:(C, Q)->A

数据集共可分为六类，分别是完形填空、多项选择、抽取式、会话、生成式、多跳推理

posted @ 2020-09-15 19:54 小哪吒呀阅读(430) 评论(0) 收藏举报

刷新页面返回顶部

小哪吒呀