平安金融壹账通获机器阅读理解顶级赛事(SQuAD)世界第一

2024.07.07

    平安金融壹账通又有重大突破！继在人类情绪理解竞赛多次登顶之后，平安金融壹账通Gamma Lab又在另一项国际顶级赛事上斩获第一。近日，在由斯坦福大学发起的机器阅读理解竞赛（Stanford Question Answering Dataset，SQuAD）中，平安金融壹账通以领先的技术脱颖而出，位列榜单第一位。
    SQuAD被誉为自然语言处理领域金字塔尖的比赛，旨在促进智能搜索引擎的发展。该赛事吸引了来自谷歌、微软亚研院、阿里达摩院、科大讯飞、IBM以及复旦大学等最顶尖的企业及学校的激烈角逐。平安金融壹账通Gamma Lab以集成模型EM＝83．435％、F1＝85．992％和单模型EM＝81．347％、F1：84．560％分别位列集成模型和单模型世界第一。

    SQuAD机器阅读理解竞赛，是让机器阅读一篇文章，然后回答关于这篇文章的任何问题，旨在推动智能搜索的发展。2016年，斯坦福大学从维基百科上随机选取了500多篇文章，并进一步细分成两万多个段落。随后采用众包的方式，由人类阅读这些文章后，为每个段落提出五个问题，并对段落内的答案进行人工标注，搭建了该项竞赛的数据集1．1。今年6月3日，斯坦福NLP团队对外宣称，机器阅读理解数据集1．1完成一波更新，已搭建完成SQuAD 2．0。相较于SQuAD 1．1中的10万问答，SQuAD 2．0又新增了5万个人类撰写的问题，而且问题不一定有对应答案。参考下图：

    在SQuAD1．1数据集当中，阅读理解的主要难点是上下文的语义理解。所提问题的答案并不能靠简单的近邻或相似度对答案进行匹配，而是需要通过NLP的语义分析，在考虑前后文信息后从全文中寻找到最合适的答案位置。想要做好这一点，需要算法能力达到人类阅读理解的思考水平。在此基础上，SQuAD2．0中新增的无答案的混淆问题进一步提升了该任务的难度。一个问题所对应的段落中有一定概率不存在正确结果，即要算法判断是否能够回答，并在此基础上准确回答问题。可以说SQuAD数据集2．0的任务在不断逼近人类阅读理解的思考方式，同时也大幅提高了竞赛的难度。金融壹账通Gamma Lab在本次竞赛中所获得的成绩，已经非常接近人类水平，体现了世界最高水平的智能搜索能力。
    早在今年年初，平安金融壹账通就已经谋划布局基于机器阅读理解技术的商业落地其，自主研发的AskBob智能搜索框架，使用了最先进的机器阅读理解技术，覆盖了医疗、银行、保险、投资等各大金融垂直领域，为知识密集型行业提供更高效更智能的搜索解决方案，极大提高了从业人员的工作效率。不仅如此， Gamma Lab还推出了一款智能音箱——Gamma智能销售助手，也搭载了最新的机器阅读理解技术，无需任何人工干预，上传一篇保险文档，即可进行任何问题的语音交互问答。阅读理解模块只需秒级即可完成文档的理解，问答准确率为91．35％，平均业务时间可缩短30％。