首页 娱乐早知道正文

沈阳大学,神经机器阅览了解最新总述:办法和趋势-优德88客户端

admin 娱乐早知道 2019-07-30 265 0

作者丨刘姗姗

校园丨国防科技大学

研讨方向丨自然言语处理

近年来,依据深度学习办法的机器阅览了解遭到了广泛的重视。近来,来自国防科技大学的团队在arXiv上发布了预印版总述文章 Neural Machine Reading Comprehension: Methods and Trends

该文总结了神经机器阅览了解范畴的经典办法与新式趋势,并对一些有待处理的敞开性问题进行了评论。想要快速了解这一范畴的读者,无妨能够从这篇论文看起。

导言

机器阅览了解(MachineReading Comprehension, MRC)使命首要是指让机器依据给定的文本答复与文本相关的问题,以此来衡量机器对自然言语的了解才能。这一使命的缘起能够追溯到 20 世纪 70 时代,可是受限于小规模数据集和依据规矩的传统办法,机器阅览了解体系在其时并不能满意实践运用的需求。

这种局势在 2015 年发生了改变,首要归功于以下两点:1)依据深度学习的机器阅览了解模型(神经机器阅览了解)的提出,这类模型更擅长于发掘文本的上下文语义信息,与传统模型比较作用进步明显;2)一系列大规模机器阅览了解数据集的发布,如 CNN & Daily Mail [1]、SQuAD [2]、MS MARCO [3] 等,这些数据集使得练习深度神经模型成为或许,也能够很好的测验模型作用。神经机器阅览了解在近几年逐步遭到越来越多的重视,成为了学术界和工业界的研讨热门。

本文对神经机器阅览了解的办法和新趋势进行了翔实的总结,首要分为以下几点:

  • 介绍了典型的机器阅览了解使命,给出公式化界说与代表性数据集,并对不同使命进行了比较;
  • 给出了机器阅览了解体系的根本结构,其间包含:嵌入编码、特征提取、文章-问题交互和答案猜测四个模块;
  • 介绍了机器阅览了解范畴近两年呈现的新式研讨趋势,并对一些有待处理的敞开性问题进行了评论。

常见使命介绍

参阅陈丹琦 [4] 在她的博士毕业论文中的观念,常见的机器阅览了解使命依照其答案方式能够分为以下四类:完形填空、多项挑选、片段抽取和自在作答。

完形填空

使命界说:给定文章 C,将其间的一个词或许实体 a (a∈C) 隐去作为待填空的问题,完形填空使命要求经过最大化条件概率 P(a|C-{a}) 来运用正确的词或实体 a 进行填空。

完形填空使命在英语考试中十分常见。如 CLOTH [8] 中的比如所示,原文中的某个词被隐去,咱们需求找到正确的词进行填空,使原文变得完好(尽管 CLOTH 数据会集供给了备选答案,可是这在完形填空使命中并不是必需的)。

代表数据集:CNN & Daily Mail [1]、CBT [5]、LAMBADA [6]、Who-did-What [7]、CLOTH [8]、CliCR [9]

多项挑选

使命界说:给定文章 C、问题 Q 和一系列候选答案调集,多项挑选使命经过最大化条件概率来从候选答案调集 A 中挑选出正确答案答复问题 Q。

多项挑选也是英语考试中的常见题型。如 RACE [11] 中的比如所示,依据文章内容提出一个相关问题,一起给出若干个候选答案,咱们需求从候选答案中挑选出能正确答复问题的答案。

代表数据集:MCTest [10]、RACE [11]

片段抽取

使命界说:给定文章 C(其间包含 n 个词,即)和问题 Q,片段抽取使命经过最大化条件概率 P(a|C,Q) 来从文章中抽取接连的子序列作为问题的正确答案。

片段抽取使命要求从原文中抽取一个接连的语句(或词组)作为问题的答案。如 SQuAD [2] 中的比如所示,原文中的 inherentdifficulty 被抽取出来作为问题的答案。

代表数据集:SQuAD [2]、NewsQA [12]、TriviaQA [13]、DuoRC [14]

自在作答

使命界说:给定文章 C 和问题 Q,自在作答的正确答案 a 有时或许不是文章 C 的子序列,即 a⊆C 或 aØC。自在作答使命经过最大化条件概率 P(a|C,Q) 来猜测答复问题 Q 的正确答案 a。

自在作答使命的答案方式最为灵敏。如 MS MARCO [3] 中,供给了 10 篇相关的文章,答复问题时需求对文章中的头绪进行概括总结,与片段抽取使命比较,自在作答使命的答案不再约束于原文中的语句,更契合人们平常的作答习气。

代表数据集:bAbI [15]、MS MARCO [3]、SearchQA [16]、NarrativeQA [17]、DuReader [18]

不同使命比较

咱们从构建难易程度(Construction)、对自然言语了解的测验水平(Understanding)、答案灵敏程度(Flexibility)、点评难易程度(Evaluation)和实践运用贴合程度(Application)等五个维度动身,对上述四类常见的机器阅览了解使命进行比较,依据每个使命在不同维度上的体现,得分最低 1 分、最高 4 分,成果如下图所示:

完形填空使命的数据集易于构建,能够用准确率方针进行点评。可是因为这一使命的答案约束为原文中的一个词或实体,所以并不能很好的测验机器对自然言语的了解才能且与实践运用相距较远。

多项挑选使命因为供给了候选答案,答案的方式相较于完形填空而言更为灵敏,构建数据集能够直接运用现有的言语测验中的多项挑选标题,所以较为简单。因为该使命要求从备选答案中选出正确答案,模型的查找空间相对较小,对自然言语了解的测验较为约束,供给备选答案与实践运用场景不太相符。

片段抽取使命是一个适中的挑选,数据集相对简单构建,模型作用也能够运用准确匹配和 F1 分数进行衡量,答案约束为原文中的子片段,相较于多项挑选有了更大的查找空间,也在必定程度上能测验机器对自然言语的了解才能,可是和实践运用仍有必定距离。

自在作答使命答案方式十分灵敏,能很好的测验对自然言语的了解,与实践运用最为靠近,可是这类使命的数据集结构相对困难,怎么有用的点评模型作用有待进行更为深化的研讨。

根本结构

典型的机器阅览了解体系一般包含嵌入编码、特征抽取、文章-问题交互和答案猜测四个模块。

嵌入编码:这一模块将输入的自然言语方式的文章和问题转化成固定维度的向量,以便机器进行后续处理。前期常用的办法为传统的词标明办法,如独热标明和分布式词向量,近两年由大规模语料库预练习的依据上下文词标明办法也得到了广泛的运用,如 ELMo [19]、GPT [20]、Bert [21] 等。一起,为了能更好的标明语义句法等信息,上述词向量有时也能够和词性标签、命名实体、问题类型等言语特征结合后进行更细粒度的标明。

特征提取:经由嵌入编码层编码得到的文章和问题的词向量标明接着传递给特征提取模块,来抽取更多的上下文信息。这一模块中常用的神经网络模型有循环神经网络(RNN)、卷积神经网络(CNN)和依据多头自注意力机制的 Transformer 结构 [22]。

文章-问题交互:机器能够运用文章和问题之间的交互信息来估测出文章中哪些部分关于答复问题更为重要,为了完成这一方针,文章-问题交互模块常用单向或双向的注意力机制来着重原文中与问题更为相关的部分。与此一起,为了更深层次的发掘文章和问题之间的联络,两者之间的交互进程有时或许会履行屡次,以此来模仿人类在进行阅览了解时重复阅览的行为。

答案猜测:这一模块依据前述三个模块累积得到的信息进行终究的答案猜测。因为常见的机器阅览了解使命能够依照答案类型进行分类,所以这一模块的完成是高度使命相关的。

关于完形填空使命,答案输出是原文中的一个词或实体,一种做法是将文中相同词的注意力权重得分进行累加,终究挑选得分最高的词作为答案 [23];关于多项挑选使命,是从多个候选答案中挑选出正确答案,一般是对备选答案进行打分,挑选得分最高的候选者作为答案;关于片段抽取使命,从原文中抽取一个接连的子片段作为答案,常用办法是 Wang & Jiang [24] 提出的猜测答案开端和完毕方位的概率的鸿沟模型;关于自在作答使命,答案灵敏度最高,不再约束于原文中,或许需求进行推理概括,现有的办法常用抽取和生成相结合的方式。

新的研讨趋势

依据常识的机器阅览了解

在人类阅览了解进程中,当有些问题不能依据给定文本进行答复时,人们会运用常识或堆集的布景常识进行作答,而在机器阅览了解使命中却没有很好的运用外部常识,这是机器阅览了解和人类阅览了解存在的距离之一。

为了引进额定的外部常识,一些学者提出了依据常识的机器阅览了解使命,与之前所介绍的使命不同,这一使命的输入除了文章和问题,还有从外部常识库中抽取的常识,以此来进步机器进行答案猜测的准确率。

代表性的依据常识的机器阅览了解数据集有 MC [25],其间的文本关于人类的一些日常活动,有些问题仅依据给定文本不能作答,需求必定的常识。例如答复“用什么来挖洞”(What was used to dig the hole?)这一问题,依据常识咱们知道一般是用“铲子”(a shovel)而不是用“手”(bare hands)。

依据常识的机器阅览了解使命的应战首要有:

1. 相关外部常识的检索(怎么从常识库中找到“用铲子挖洞”这一常识);

2. 外部常识的交融(常识库中结构化的常识怎么与非结构化的文本进行交融)。

带有不能答复问题的机器阅览了解

机器阅览了解使命有一个潜在的假定,即在给定文章中必定存在正确答案,但这与实践运用不符,因为给定文章中所含的常识有限,一些问题仅依据原文或许并不能做出答复,这就呈现了带有不能答复问题的机器阅览了解使命。在这一使命中,首要机器要判别问题仅依据给定文章能否进行作答,如若不能,将其符号为不能答复,并中止作答;反之,则给出答案。

SQuAD2.0 [26] 是带有不能答复问题的机器阅览了解使命的代表数据集。鄙人面的比如中,问题是“1937 年公约的名字”(What was the name of the 1937 treaty?),可是原文中尽管提到了 1937 年的公约,可是没有给出它的名字,仅依据原文内容不能对问题进行作答,1940 年公约的名字还会对答复问题形成误导。

带有不能答复问题的机器阅览了解使命的应战有:

1. 不能答复问题的判别(判别“1937 年公约的名字是什么”这个问题能否依据文章内容进行作答);

2. 搅扰答案的辨认(防止被 1940 年公约名字这一搅扰答案误导)。

多文档机器阅览了解

在机器阅览了解使命中,文章是预先界说的,再依据文章提出问题,这与实践运用不符。人们在进行问答时,一般先提出一个问题,再运用相关的可用资源获取答复问题所需的头绪。

为了让机器阅览了解使命与实践运用更为贴合,一些研讨者提出了多文档机器阅览了解使命,不再只是给定一篇文章,而是要求机器依据多篇文章对问题进行作答。这一使命能够运用到依据大规模非结构化文本的敞开域问答场景中。多文档机器阅览了解的代表数据集有 MS MARCO [3]、TriviaQA [13]、SearchQA [16]、DuReader [18] 和 QUASAR [27]。

多文档机器阅览了解的应战有:

1. 相关文档的检索(怎么从多篇文档中检索到与答复问题相关的文档)

2. 噪声文档的搅扰(一些文档中或许存在符号答案,可是这些答案与问题或许存在答非所问的状况)

3. 检索得到的文档中没有答案

4. 或许存在多个答案(例如问“美国总统是谁”,特朗普和奥巴马都是或许的答案,可是哪一个是正确答案还需求结合语境进行揣度)

5. 需求对多条头绪进行聚合(答复问题的头绪或许呈现在多篇文档中,需求对其进行总结概括才干得出正确答案)。

对话式阅览了解

机器阅览了解使命中所提出的问题一般是彼此独立的,而人们往往经过一系列相关的问题来获取常识。当给定一篇文章时,发问者先提出一个问题,答复者给出答案,之后发问者再在答复的基础上提出另一个相关的问题,多轮问答对话能够看作是上述进程迭代进行屡次。为了模仿上述进程,呈现了对话式阅览了解,将对话引进了机器阅览了解中。

对话式阅览了解的代表性数据集有 CoQA [28]、QuAC [29] 等。下图展现了 CQA 中的一个对话问答的比如。关于给定的文章,进行了五段彼此相关的对话,不只问题之间存在联络,后续的问题或许与之前的答案也有联络,如问题 4 和问题 5 都是针对问题 3 的答案 visitors 进行的发问。

对话式阅览了解存在的应战有:

1. 对话前史信息的运用(后续的问答进程与之前的问题、答案严密相关,怎么有用运用之前的对话信息);

2. 指代消解(了解问题 2,有必要知道其间的 she 指的是 Jessica)。

敞开性问题评论

外部常识的引进

常识和布景常识作为人类才智的一部分常常用于人类阅览了解进程中,尽管依据常识的机器阅览了解使命在引进外部常识方面有必定的测验,可是仍存在缺少。

一方面,存储在常识库中的结构化常识的方式和非结构化的文章、问题存在差异,怎么将两者有用的进行交融仍值得研讨;另一方面,依据常识的机器阅览了解使命体现高度依赖于常识库的构建,可是常识库的构建往往是费时吃力的,并且存储在其间的常识是稀少的,假如不能在常识库中直接找到相关的外部常识,或许还需求对其进行进一步的推理。

机器阅览了解体系的鲁棒性

正如 Jia & Liang [30] 指出的,现有的依据抽取的机器阅览了解模型关于存在误导的对抗性样本体现十分软弱。假如原文中存在搅扰句,机器阅览了解模型的作用将大打折扣,这也在必定程度上标明现有的模型并不是真实的了解自然言语,机器阅览了解模型的鲁棒性仍待进一步的进步。

约束文章带来的约束性

机器阅览了解使命要求机器依据给定的原文答复相关问题,可是在实践运用中,人们往往是先提出问题,之后再运用可用的资源对问题进行答复。多文档机器阅览了解使命的提出在必定程度上打破了预先界说文章的约束,可是相关文档的检索精度约束了多文档机器阅览了解模型在答案猜测时的体现。信息检索和机器阅览了解需求在未来进行更为深度的交融。

推理才能的缺少

现有的机器阅览了解模型大多依据问题和文章的语义匹配来给出答案,这就导致模型缺少推理才能。例如,给定原文“机上五人地上两人丧身”,要求答复问题“几人丧身”时,机器很难给出正确答案“7 人”。怎么赋予机器推理才能将是推进机器阅览了解范畴开展的关键问题。

本文对 Neural Machine Reading Comprehension: Methods and Trends 一文的首要内容进行了介绍,因为篇幅约束,介绍较为大略,感兴趣的读者能够参看原论文的具体介绍。

参阅文献

[1] Hermann K M, KociskyT, Grefenstette E, et al. Teaching machines to read and comprehend[C]//Advancesin neural information processing systems. 2015: 1693-1701.

[2] Rajpurkar P, Zhang J, Lopyrev K, et al. Squad: 100,000+ questions for machinecomprehension of text[J]. arXiv preprint arXiv:1606.05250, 2016.

[3] Nguyen T, Rosenberg M, Song X, et al. MS MARCO: A Human Generated MAchineReading COmprehension Dataset[J]. choice, 2016, 2640: 660.

[4] Danqi Chen. Neural Reading Comprehension and Beyond. PhD thesis, StanfordUniversity, 2018.

[5] Hill F, Bordes A, Chopra S, et al. The goldilocks principle: Reading children'sbooks with explicit memory representations[J]. arXiv preprint arXiv:1511.02301,2015.

[6] Paperno D, Kruszewski G, Lazaridou A, et al. The LAMBADA dataset: Wordprediction requiring a broad discourse context[J]. arXiv preprintarXiv:1606.06031, 2016.

[7] Onishi T, Wang H, Bansal M, et al. Who did what: A large-scale person-centeredcloze dataset[J]. arXiv preprint arXiv:1608.05457, 2016.

[8] Xie Q, Lai G, Dai Z, et al. LARGE-SCALE CLOZE TEST DATASET DESIGNED BYTEACHERS[J]. arXiv preprint arXiv:1711.03225, 2017.

[9] Šuster S, Daelemans W. Clicr: A dataset of clinical case reports for machinereading comprehension[J]. arXiv preprint arXiv:1803.09720, 2018.

[10] Richardson M, Burges C J C, Renshaw E. Mctest: A challenge dataset for theopen-domain machine comprehension of text[C]//Proceedings of the 2013Conference on Empirical Methods in Natural Language Processing. 2013: 193-203.

[11] Lai G, Xie Q, Liu H, et al. Race: Large-scale reading comprehension datasetfrom examinations[J]. arXiv preprint arXiv:1704.04683, 2017.

[12] Trischler A, Wang T, Yuan X, et al. Newsqa: A machine comprehension dataset[J].arXiv preprint arXiv:1611.09830, 2016.

[13] Joshi M, Choi E, Weld D S, et al. Triviaqa: A large scale distantly supervisedchallenge dataset for reading comprehension[J]. arXiv preprintarXiv:1705.03551, 2017.

[14] Saha A, Aralikatte R, Khapra M M, et al. Duorc: Towards complex languageunderstanding with paraphrased reading comprehension[J]. arXiv preprintarXiv:1804.07927, 2018.

[15] Weston J, Bordes A, Chopra S, et al. Towards ai-complete question answering: Aset of prerequisite toy tasks[J]. arXiv preprint arXiv:1502.05698, 2015.

[16] Dunn M, Sagun L, Higgins M, et al. Searchqa: A new q&a dataset augmentedwith context from a search engine[J]. arXiv preprint arXiv:1704.05179, 2017.

[17] Kočiský T, Schwarz J, Blunsom P, et al. The narrativeqa reading comprehensionchallenge[J]. Transactions of the Association for Computational Linguistics,2018, 6: 317-328.

[18] He W, Liu K, Liu J, et al. Dureader: a chinese machine reading comprehensiondataset from real-world applications[J]. arXiv preprint arXiv:1711.05073, 2017.

[19] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized wordrepresentations[J]. arXiv preprint arXiv:1802.05365, 2018.

[20] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding bygenerative pre-training[J]. URL https://s3-us-west-2. amazonaws.com/openai-assets/ researchcovers/languageunsupervised/language understandingpaper. pdf, 2018.

[21] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectionaltransformers for language understanding[J]. arXiv preprint arXiv:1810.04805,2018.

[22] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advancesin neural information processing systems. 2017: 5998-6008.

[23] Kadlec R, Schmid M, Bajgar O, et al. Text understanding with the attention sumreader network[J]. arXiv preprint arXiv:1603.01547, 2016.

[24] Wang S, Jiang J. Machine comprehension using match-lstm and answer pointer[J].arXiv preprint arXiv:1608.07905, 2016.

[25] Ostermann S, Modi A, Roth M, et al. Mc: A novel dataset for assessingmachine comprehension using knowledge[J]. arXiv preprintarXiv:1803.05223, 2018.

[26] Rajpurkar P, Jia R, Liang P. Know What You Don't Know: Unanswerable Questionsfor SQuAD[J]. arXiv preprint arXiv:1806.03822, 2018.

[27] Dhingra B, Mazaitis K, Cohen W W. Quasar: Datasets for question answering bysearch and reading[J]. arXiv preprint arXiv:1707.03904, 2017.

[28] Reddy S, Chen D, Manning C D. Coqa: A conversational question answeringchallenge[J]. Transactions of the Association for Computational Linguistics,2019, 7: 249-266.

[29] Choi E, He H, Iyyer M, et al. Quac: Question answering in context[J]. arXivpreprint arXiv:1808.07036, 2018.

[30] Jia R, Liang P. Adversarial examples for evaluating reading comprehensionsystems[J]. arXiv preprint arXiv:1707.07328, 2017.

#

• 稿件确系个人原创著作,来稿需注明作者个人信息(名字+校园/工作单位+学历/职位+研讨方向)

• PaperWeekly 默许每篇文章都是首发,均会增加“原创”标志

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

孙策,9月19日晚间沪深上市公司严重事项布告最新快递-优德88客户端

  • 优德888官方_优德88游戏下载大全_优德w88app官方登录

    优德888官方_优德88游戏下载大全_优德w88app官方登录

  • 国学经典,原创不要再抱怨孩子不争气,都是由于这些家长破坏了孩子天分!-优德88客户端

    国学经典,原创不要再抱怨孩子不争气,都是由于这些家长破坏了孩子天分!-优德88客户端

  • w88优德中文_优德88官方网站网页版_优德88官方线上平台

    w88优德中文_优德88官方网站网页版_优德88官方线上平台

  • w88官网_优德88备用网址_w88官方网站手机版

    w88官网_优德88备用网址_w88官方网站手机版

  • 藏机图,原创春秋时期有这么一个国家,地理位置很特别,前后左右都是强国-优德88客户端

    藏机图,原创春秋时期有这么一个国家,地理位置很特别,前后左右都是强国-优德88客户端

  • 儒,原创茅台半年净利212亿,比五粮液洋河总和多68亿,这三家酒企还在亏-优德88客户端

    儒,原创茅台半年净利212亿,比五粮液洋河总和多68亿,这三家酒企还在亏-优德88客户端

  • 最近发表

      优德88客户端_w88top_优德w88客户端_优德w88苹果手机版本

      http://www.xun2.net/

      |

      Powered By

      使用手机软件扫描微信二维码

      关注我们可获取更多热点资讯

      w88出品