《基于神经网络的机器阅读理解综述_顾迎捷》 软件学报
读这篇论文主要是要了解一下目前文本理解的研究现状,
带着一个疑问: 文本理解和机器阅读理解的关系,这两者到底是一个东西还是不同的东西?文本理解包含机器阅读理解,还是二者就是同一个方向的不同叫法。
不敢问老师,所以先自己找答案吧!
1. 神经网络机器阅读理解(MRC)发展的前提是数据集的提出,数据集推动了机器学习模型的发展,一些数据集列举如下:
完形填空类型:CNN/Daily Mail(2015年 提出新型大规模训练数据集)
第一个包含大规模自然语言问题的阅读理解数据集:SAuAD(Stanford Question Answering Dataset)
抽取式数据集:TriviaQA, WikiQA, NewsQA, SQuAD2.0, SearchQA;
多项选择数据集:SciQ, ARC, RACE, TQA, MCScript;
完形填空数据集:CBT, CLOTH;网络模型->
会话型数据集:CoQA, QuAC, CSQA, SQA, CQA;
生成式型数据集:NarrativeQA, MSMARCO;
多跳推理数据集:HotpotQA。
代表性的中文领域的MRC数据集列举如下:
完形填空型数据集:PeopleDaily/CFT;
生成式型数据集:DuReader
各大规模的MRC数据集的提出推动着神经阅读理解模型的发展:
简单记忆网络模型->match-LSTM+Ptr-Net模型->通用四层架构->Transformer架构
2. 机器阅读理解任务,可以形式化为将一个有监督的学习问题:给出一个三元组的训练数据:(C, Q, A)段落、问题、答案,目标是学习一个预测器f,能够将段落C与问题Q作为输入,返回一个法案A作为输出: f:(C, Q)->A
数据集共可分为六类,分别是完形填空、多项选择、抽取式、会话、生成式、多跳推理

浙公网安备 33010602011771号