“AI+人脸识别”核心算法:一场技术迭代的攻防战与持久战


    由于众所周知的原因,中国成为了人脸识别技术成长的最佳沃土。据统计,2016年中国平安城市的相关招标额总计达到660亿元,而整个中国安防行业的规模更是千亿级市场。据中安网数据显示,中国安防行业市场规模从2012年的3240亿元增长到2016年的5400亿元,年复合增长率达到惊人的15%,而其中2016年视频监控产品产值约达到962亿元。
    而在技术方面,中国视频监控行业在经历了过去十年的高清化、网格化的升级迭代后,已经形成了累计投入近万亿的硬件基础设施。在视频监控领域完成“看得见、看得清”两步以后,人脸识别技术就犹如“看得懂”这临门一脚,成为实现“AI+安防”最重要的一步,若是人脸识别技术确实能为安防这个正在不断被做大的千亿级蛋糕增加画龙点睛的一笔,其市场规模足以令人惊叹。
    云从科技有限公司CFO陈琳在接受本刊采访时表示:“2017年,基于人脸识别技术的安防市场将会迎来一次大爆发。主要有两大原因,首先,安防是绝对的市场刚需,与金融等其他应用领域‘求稳’的特点不同,安防的特点是‘爆发性',只要效用明显,便会迅速且大范围的推广使用;其次,安防领域过去之所以没有大范围采用人脸识别技术,主要是由于当时的技术水平不过关而造成的,而今天的人脸识别技术已经足够成熟,能够真正提升整体的安防技术水平。而从实际应用案例的角度来看,比如2016年3月在广州的人脸识别技术应用测试中,当时日本NEC以及德国科力达公司的人脸识别技术,在千万级的人口库中只能做到5%的TOP1命中率,这完全达不到实际应用的要求,而我们的测试结果则达到了50%以上的命中率,可以在实际的安防应用项目中发挥很好的效果。而且,我们相信未来随着摩尔定律的不断发展,AI赋能下的人脸识别技术将会在安防领域创造更多更为丰富的应用。”
    之所以能够做到如此高水平的应用能力,云从科技仰赖的是“摄像头模组+核心AI算法”软硬件一体化的解决方案。陈琳告诉记者:“在硬件方面,目前的存量摄像头采集的照片,无论是从分辨率还是拍摄角度来看,都不足以用来做人脸识别,虽然用于场景分析的问题不大,但不能进一步分析具体的面部细节,这也就造成人脸识别技术无法充分发挥效能。因此,我们认为软硬件的良好结合就显得尤为必要,在人脸识别技术切入安防领域时,一定要重新安装更为匹配的摄像头,针对一些新的角度来增加部署,这就是我们做软硬件一体化方案的重要原因。”
    而在软件层面上,云从则构建了“双层异构深度神经网络+结构化生成模型+多维度决策系统+GPU训练集群”的AI算法架构,来实现可靠而稳定的人脸识别能力。对此,陈琳解释到:“首先,双层异构深度神经网络模型有助于解决跨场景人脸识别的问题,通过多任务学习目标函数,能够在数十亿的数据集中选取有效的样本进行训练,克服了样本选择难的问题;其次,结构化生成模型可以利用已有的阵列数据生成角度、光照以及表情模型,并通过这些模型来模拟真实场景的光照、角度以及表情信息,从而生成大量不同光照、角度以及表情的数据,最后利用生成对抗网络(GAN)的思想,能够保证生成的数据没有失真,同时又模拟了复杂的场景,从而保证训练的有效性;此外,多维度决策系统能够搜集全局深度学习特征,比如人脸属性、表情、角度、光照、发型以及嘴巴、眉眼、鼻子等局部特征,进而利用迁移学习技术来训练不同角度的模型,从而融合所有的特征进行相似度的综合计算;最后,通过超过500块显卡的GPU管理平台进行资源的智能调度,实现高效的深度学习训练,能够在1天的时间内完成10亿人脸数据的训练,从而每天处理超过100个的任务。除此,针对安防领域的实际应用,还需要针对模糊图像来进行算法层面上的提升,并增强对光线、角度等不利因素的鲁棒性,以及提高人脸特征检索速度,使得能在很短的时间内在亿级人脸图像库中检索。目前公司的产品方案已经在全国22个省进行了上线实战(比如省级静态大库刑总的应用、千路门禁小区和平安城市融合应用等),并获得了公安部的高度认可,引领了公安行业战法的变革。”
    北京飞搜科技有限公司首席专家董远表示:“针对安防这块庞大的应用市场,我们主要从软件层面出发,核心技术是基于深度学习(卷积神经网络)的人脸识别算法。截止目前,我们开发出了To B的多个在线API以及离线SDK产品线,其中包括人脸检测、特征点定位(包含5点、27点、68点以及194点)、人脸识别(人脸校验1:1,人脸检索1:N)、人脸属性识别(性别、年龄、种族以及颜值等)以及目标/场景识别等。通过与业内其他应用型厂商之间的合作,我们的人脸识别监控方案已经成功在新疆、内蒙、陕西以及甘肃等西北区域的智能安防项目当中实现了落地应用,目前已经成为监控平台的技术集成商。”
    而针对具体的安防应用,董远也十分赞同“软硬结合”的方式,他表示:“如果对人脸识别的准确率有较高的期待,则在实际项目当中会对摄像机的分辨率、焦距、光线以及角度等方面都有比较严格的技术要求。在我们实际的安防项目当中,我们会尽力的使用高分辨率的摄像头,同时结合人脸追踪、超分辨率、图像质量以及人脸角度判别技术,在摄像头的视频流当中,选取质量最好的人脸来进行识别,从而提高人脸识别的整体精度。此外,表情事实上对于人脸识别的精度没有影响,而戴眼镜的人脸会对精度产生较大影响。”