深兰科技获CCKS2020金融领域任务冠军，为该领域提供重要决策参考

2024.04.13

11月12～15日，国内知识图谱和语义计算等领域的核心学术会议CCKS2020，在江西南昌成功举行，深兰科技DeepBlueAI团队首次参加即斩获三冠一亚，成为本届会议唯一获得多个冠军的队伍。团队分别在“新冠百科知识图谱类型推断”、“面向金融领域的篇章级事件主体抽取”、“基于标题的大规模商品实体检索”这三个（子）任务中夺得第一，在“面向中文短文本的实体链指”任务中仅以0．00002分之差屈居第二。此外，本届组委会还特别评选出每一任务至多一项的“创新技术奖”，专门用于鼓励创新性技术的使用，深兰科技在“基于标题的大规模商品实体检索”的任务中再次脱颖而出。

    第十四届全国知识图谱与语义计算大会（CCKS：China Conference on Knowledge Graph and Semantic Computing）由中国中文信息学会语言与知识计算专业委员会主办，主题是“知识图谱与认知智能”，共设立8个相关主题的技术评测任务，旨在为研究人员提供测试知识图谱与语义计算技术、算法及系统的平台和资源，促进国内知识图谱领域的技术发展，此次吸引了包括华为、百度、腾讯、小米、北京大学、上海交通大学、浙江大学等知名企业和学府的团队同台竞技。
    随着互联网技术的飞速发展，人们逐渐从信息时代进入智能时代。知识图谱作为承载底层海量知识并支持上层智能应用的重要载体，在智能时代中扮演了极其重要的角色。尤其多模态知识图谱的构建，能够让基于知识图谱的智能服务更好地理解真实世界的数据场景，进而更好地支撑各项上游任务和行业应用，如推荐系统、语义搜索、智能问答等。深兰科技夺冠的三个任务方案，分别可在电商、金融、舆情监控等领域的应用上发挥重要作用。
    “新冠百科知识图谱类型推断”任务，要求从实体百科（包括百度百科、互动百科、维基百科、医学百科）页面出发，从给定的数据中推断相关实体的类型。然而，大量类型信息以非结构化文本形式呈现于网络页面中，文本处理难度大，抽取结果同时保证高准确度和覆盖率仍然是个极大的挑战。针对数据集的特点，DeepBlueAI团队构建了数个基于BERT模型的文本分类器，并引入了多个外部数据集，最后将这些分类器进行融合得到最终判断结果。实体类型是知识图谱的重要组成，正确的实体类型是构建一个高质量知识图谱的前提。
    “事件”在金融领域是投资分析、资产管理的重要决策参考，也是知识图谱的重要组成部分，而“事件抽取”是进行图谱推理、事件分析的必要过程。在金融领域，“事件抽取”是一项十分重要的任务，也是自然语言处理领域一项比较复杂的任务，它的挑战相当部分体现在文本复杂上：输入的文本可能是句子、段落或者篇章，不定长度的文本使得限制文本长度的模型无法使用。“面向金融领域的篇章级事件主体抽取”任务中，团队使用了多标签事件分类加实体识别Pipeline模型，在标准的多标签分类模型中加入了特征提取模块，实体识别模型采用BERT－LSTM－CRF与阅读理解投票融合的方式，最终以较大优势获得第一。
    “基于标题的大规模商品实体检索”是典型的语义识别类任务，在网购已经成为一种生活方式的前提下，具有非常实用的价值。商品标题一般较短，上下文语境不丰富；用户搜索时，文本口语化严重；商品标题中存在很多变异指代，没有给定的指代映射表；这都需要对上下文语境进行精准理解，具有很大的挑战。团队针对商品检索任务采用召回－粗排－精排的总体方案，在召回阶段放弃了bm25、dssm等主流召回技术，创新性地使用Triplet BERT模型进行召回，在排序阶段采用基于BERT的二分类排序方式，检索准确率达到0．88489。最终不但排名第一，还收获了创新技术奖。
    从包括CCKS2020在内的国内外顶会的赛题任务设置中不难发现，其共同点在于更注重了落地应用性。随着社会的发展，人工智能已逐渐渗透到各个行业并转化为实际应用，而深兰科技早在成立之初就提出了“基础研究与落地应用”齐头并进的理念，并取得了有目共睹的成效。会议竞赛的成绩是对过往的检验，更是对今后不断进取的鞭策，“人工智能服务民生”将是深兰科技矢志不渝的目标。