近日,在第三届中文机器阅读理解评测 (The Third Evaluation Workshop on Chinese Machine Reading Comprehension, CMRC 2019)上,平安金融壹账通旗下人工智能研究院Gamma Lab凭借自主研发的中文预训练语言模型,在资格集和测试集上分别以QAC (Question Accuracy): 90.789%/PAC(Passage Accuracy): 58.2%和QAC: 90.055%/PAC: 57.6%的分数夺得CMRC2019的榜单排名冠军。

平安金融壹账通登顶中文机器阅读理解CMRC竞赛榜单-LMLPHP

中文机器阅读理解评测 (The Chinese Machine Reading Comprehension, CMRC)是从2017年开始,由全国计算语言学学术会议(CCL)计划举办评测活动。CMRC作为全国计算语言学学术会议(CCL)的系列评测,至今已经举办了三次,是中文机器阅读理解技术最权威的竞赛之一。参加此次比赛的单位分别有金融壹账通Gamma Lab,百度,哈工大&汉仪字库,顺丰科技,sixestate等单位组织。金融壹账通Gamma Lab在最终测试集上QAC和PAC分别大幅领先于第二名4.064%和15.8%。说明金融壹账通Gamma Lab的中文阅读理解能力在行业内属于领先地位。

机器阅读理解不同于传统的问答系统,无法通过规则和常识进行来直接回答问题,而是需要模型从文章上下文中寻找线索,进行前后文内容的理解,才能得到准确的答案。因此这项任务也就伴随着对算法能力更大的挑战。

从2017年起,中文阅读理解开始逐渐受到更大的关注。CMRC的竞赛也与时俱进,从填空型,抽取型到现在的句子型任务层层递进,目的是使得机器能够更加关注文章全局的语义信息,而不是简单的局部特征。

在2018年的BERT问世后,许多阅读理解任务的STOA结果也被BERT刷新了。一石激起千层浪,许多相关的语言模型也孕育而生,如BERT-WWM, ENIRE, XLNet,RoBERTa等。这些模型在训练规模上与日俱增,用于下游任务时的训练成本也越来越高。

本次竞赛中Gamma Lab使用BERT_SCP_SPM同时从2个方向进行了优化,首先,以句子插入为辅助任务代替原来Bert的预测上下句任务。其次,使用sentencepiece来对中文进行分词以减少文本序列长度以节约显存和捕捉长文本信息。最终所用的新模型以现在预训练模型中最小的base规模即取得了最好的性能结果。

       Gamma Lab相关人员介绍到,中文机器阅读理解可以深入运用到多个金融场景,例如智能客服,该技术可以帮助机器在复杂的金融场景中,准确、智能的理解客户表达的意思,选择最优的解决方案和回答话术。此外,中文机器阅读理解还可以运用在金融机构后台经营管理中,如对合同、合约等智能化分析等。

早在今年年初,金融壹账通就已经谋划布局基于机器阅读理解技术的商业落地,其自主研发的AskBob智能搜索框架,使用了最先进的机器阅读理解技术,覆盖了医疗、银行、保险、投资等各大金融垂直领域,为知识密集型行业提供更高效更智能的搜索解决方案,极大提高了从业人员的工作效率。

不仅如此, Gamma Lab还推出了一款智能音箱——Gamma智能销售助手,也搭载了最新的机器阅读理解技术, 无需任何人工干预,上传一篇保险文档,即可进行任何问题的语音交互问答。阅读理解模块只需秒级即可完成文档的理解,问答准确率为91.35%,平均业务时间可缩短30%。

事实上,Gamma Lab自2017年成立以来,已经斩获国内外多项人工智能竞赛的冠军,包括OMG国际情绪识别竞赛、EmotionNet面部动作单元识别竞赛、SemEval对话情绪识别竞赛、斯坦福机器阅读理解SQuAD竞赛等。金融壹账通Gamma Lab拥有超过350位科技人才,致力于研发领先的人工智能技术。同时,金融壹账通结合金融丰富的场景,向金融机构提供智能解决方案,覆盖基础数据层、业务应用层、经营管理层,实现金融机构全流程数字化转型。

09-13 01:08