让计算机看懂世界靠谱吗?智能识别技术大行其道
智能识别技术 让计算机看懂世界
互联网发展之初受到网络带宽、数据存储等相关技术的限制,信息的传播以单模态形式为主,如文字报道、图像相册等。进入大数据时代,信息的传播变得丰富多彩,人们从互联网中同时接受图像、视频、文本等不同模态的信息。例如,当我们在互联网上浏览一篇精彩的新闻报道时,不仅可以看到详细的文字描述,还能看到记者在现场拍摄的照片,甚至还有相关的视频报道。这体现了互联网数据从单模态到多模态的转变。
随着互联网多模态数据的大量出现和传播,“管不住”和“用不好”两大问题也日益突出。“管不住”是指多模态大数据中隐藏着大量涉恐、涉暴等有害信息,极大地危害着国家安全和社会稳定,目前还缺乏自动的分析与识别技术。“用不好”是指现有技术一般是单模态分析与识别,仅针对信息有限的单模态数据,难以对多模态数据进行有效利用。如何让计算机看懂世界,实现对互联网多模态大数据的有效监管与利用,是目前急需解决的重大问题。
针对上述问题,北京大学彭宇新教授团队在国家自然科学基金、国家863计划、国家科技支撑计划等支持下,历经10余年技术攻关,在图像视频概念检测、视觉目标检测、多模态数据分析与识别、互联网舆情监测四个方面取得了多项重大技术突破和发明创新。在2016年北京市科学技术奖评选中,“互联网多模态内容分析与识别关键技术及应用”项目荣获一等奖。
突破单模态分析与识别技术
单模态分析与识别是突破互联网多模态内容识别的基础和关键技术。图像、视频和文本是单模态信息的重要形式,如何使计算机能够自动分析与识别图像、视频和文本的内容便成为了研究与应用的难点问题。
图像、视频中一般包含某种语义概念,如篮球比赛、奥运会等;同时也包含视觉目标,如行人、汽车、旗帜等。
“虽然人类能够很容易地识别与理解这些概念与目标,但在计算机看来,数字图像就是由一个个像素点构成,这样人类的语义概念及视觉目标与计算机看到的二进制数值之间就存在难以逾越的‘语义鸿沟’。”北京大学彭宇新说。
由于图像、视频的语义概念比较抽象、视觉目标复杂多变,如“奥运会”这一概念很难从视觉上准确定义,而“旗帜”等目标不具有固定的形态,导致计算机自动分析与识别的难度很大。
彭宇新团队针对图像视频概念检测难题,发明了基于注意力模型和增量深度学习的分类方法,一方面注意力模型能够定位图像的显著性区域以提高检测精度;另一方面增量学习在新概念增加过程中,能够利用已经学习到的知识加速新知识学习,同时通过动态扩容以支持新概念的检测。该方法使得特定概念的检测精度突破90%。针对复杂场景下视觉目标检测问题,发明了级联分类器与极角拓扑约束相结合的判别方法,一方面通过级联分类器从海量数据中快速筛选出可能包含特定目标的候选区域,加快检测速度;另一方面通过极角拓扑约束对候选区域进行二次判别,提高检测精度。该方法提高了低分辨率、形变、仿射变换等复杂情况下的检测效果,使得特定视觉目标检测精度突破90%。基于上述研究成果,彭宇新教授团队参加了国际权威评测TRECVID的视频高层概念检测比赛,获得第一名,参赛队伍包括卡内基梅隆大学、牛津大学、IBM Watson研究中心等国际著名大学和研究机构。
在文本内容分析上,热点话题检测与敏感信息发现是互联网舆情监测的两个主要应用需求。热点话题与敏感信息通常包含特定的人名、地名、机构名等实体信息,有效地识别实体信息是文本内容分析的关键。针对上述问题,项目团队发明了基于知识元的多模态语义分析方法和基于情感观点的话题追踪方法,有效解决了互联网内容的语言规范性差、噪音大、时效性高导致实体难以识别和利用的问题。在国际权威评测TREC 2014年和2015年的微博信息检索比赛中获得第一名。
1 2 下一页>