京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先-LMLPHP

来源:机器之心

本文约2000字,建议阅读8分钟

京东提出的 EL-QA 模型(登顶 QuAC Leaderboard,全部三项指标均获得第一名。

[ 摘要 ]近日,在斯坦福大学、华盛顿大学、Allen AI 和 UMass 联合发起的机器阅读理解(QuAC[1] (Choi et al., 2018))比赛中,京东 AI 研究院语音语言实验室提出的 EL-QA 模型(Single Model)登顶 QuAC Leaderboard,全部三项指标均获得第一名。

其中,在 F1-Measure(又称为 F1-Score) 指标上达到 74.6,大幅拉近了机器与人类在该任务上的水平差距。这也意味着以零售、物流、金融、客服等优质场景为依托的京东 AI 研究院,在机器阅读理解能力上取得了突飞猛进的成果。

京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先-LMLPHP

图 1QuAC 挑战赛官方成绩榜单(https://quac.ai)

目前,QuAC 是人机多轮对话交互领域复杂度最高的数据集,要求模型具备强大的上下文语义理解、指代推理、省略语义恢复和知识推理等能力,这也吸引了全球顶级科研院所和企业研究机构参加。从结果来看,QuAC 具有较高的难度,在这个数据集上目前的最佳 AI 模型的性能距离人类表现仍有一定差距,表明在这个问题上技术还有进步的空间。

QuAC 新挑战:更复杂的数据集、更开放的问题、更贴近真实场景

机器阅读理解能力已成为判断机器是否具有自然语言理解(语义理解、阅读、问答等)能力的重要标准。SQuAD[2] (Rajpurkar et al., 2016) 数据集的提出极大地推动了机器阅读理解的研究与发展。随着模型在上述单轮问答场景超越人类,更有挑战的交互式阅读理解数据集,如 CoQA[3] (Reddy et al., 2018) 等,被相继提出。

相比于众多交互式阅读理解数据集,QuAC 具有更鲜明的特点,也更进一步反映了复杂人机对话交互应用场景的难度。比如:

  • 基于答案对提问者不可见的方式构造开放式问题,增大回答难度;

  • 增加对话引导行为(Action)辅助提问者调整提问话题,以便高效获取信息;

  • 模拟真实场景引入不可回答问题,增加对模型理解与判断能力的要求。

具体而言,该数据集是由提问者(Student)和回答者(Teacher)针对某一主题展开对话而构建的,提问者在只能看见给定主题而不可见主题具体信息的条件下进行开放式的提问,回答者针对问题不仅要给出具体回复(response),并且需反馈对话引导行为和问题是否可回答等信息。

京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先-LMLPHP

图 2:QuAC 数据集示例

例如,图 2 展示了提问者首先根据主题 Daffy Duck 进行提问。回答者会根据给定主题相关信息和交互历史来判断当前问题所讨论的话题是否可继续提问,继而反馈给提问者相应的对话引导行为,包括继续当前话题(Follow-Up),终止当前话题(Don’t Follow-Up)或无法判断是否继续(Maybe Follow-Up),并最后给出相应的答案。

该竞赛的数据构造过程更贴合人们通过对话进行信息获取(Conversational Information-Seeking)的真实场景。例如在零售领域,用户对某一商品进行开放式咨询,智能客服根据具体的商品信息对用户的提问进行可回复性判断,并给出用户是否继续或改变当前咨询话题的引导行为,最终给出自然语言回复。相对于传统的智能客服,这种新的交互方式可以极大地提升用户的对话体验和效率。

京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先-LMLPHP

图 3:QuAC 与其他机器阅读理解数据集的多维度对比

图 3 给出了 QuAC 与时下多个热门机器阅读理解数据集的详细对比,可看出 QuAC 具有最丰富的数据特性,要求模型具有更强的上下文语义理解和对话逻辑推理能力。

京东 AI 研究院 EL-QA 模型斩获新 SOTA

京东 AI 研究院语音语言实验室提出的 EL-QA 模型(Single Model)登顶 QuAC Leaderboard,全部三项指标均获得第一名,其中特别是 HEQD(对话 Session 层面对比人类平均水平的指标)显著领先之前最好表现。该结果的取得主要得益于我们在关键技术上的创新,包括大规模预训练语言模型、知识迁移、多任务学习、数据增强、Beam-Search 解码答案和 Deep Ranking 等。

拥有优质场景和广阔应用价值的企业或机构在本次竞赛中占据优势。本次竞赛从参赛队伍到榜单分布,大多是在智能人机交互服务领域有重要相关业务的企业的实验室。这也体现出,一方面,科技企业基于资源优势正在核心技术研发方面走到前沿,而大学则聚焦于新问题新思想新方向的提出和中立的技术评价,学术界和企业界形成了良性的紧密合作。另一方面,这也表明,智能人机对话交互技术不仅具有重要的研究价值,也有重大的产业价值。

企业的全力加入使得此领域的技术竞争日益激烈,是兵家必争之地。这次评测的对话式机器阅读理解相关技术可广泛应用于智能客服、营销导购、人机协同、AI + 教育等产品中,带来效率和体验的直接提升。

据悉,京东 AI 研究院语音语言实验室围绕自然语言处理、语音与声学、知识图谱、人机对话与交互、多模态信息处理等前沿领域开展人工智能技术研究,近两年已经在国际顶级学术会议和期刊上发表论文 50 多篇,获得 IEEE Signal Processing Society 等最佳论文奖,在多个有影响力的国际竞赛中获得冠军,同时也承担了多项国家重点研发计划。其研发的多项前沿技术也成功转化落地,支撑了京东智联云多个重要产品。此次研发的对话式机器阅读理解相关技术部分已落地到了京东智联云智能人机交互部的商城智能客服、商家智能客服(京小智:https://portal-aixiaozhi.jd.com/)、客户服务数据分析平台、智能写作以及商品知识图谱驱动的采购大脑等核心产品当中。

参考文献

[1] Choi E, He H, Iyyer M, et al. Quac: Question answering in context[J]. arXiv preprint arXiv:1808.07036, 2018.

[2] Rajpurkar P, Zhang J, Lopyrev K, et al. Squad: 100,000+ questions for machine comprehension of text[J]. arXiv preprint arXiv:1606.05250, 2016.

[3] Reddy S, Chen D, Manning C D. Coqa: A conversational question answering challenge[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 249-266.

编辑:黄继彦

校对:林亦霖京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先-LMLPHP

09-14 18:05