AI,人脸识别背后的推进者?
AiChinaTech谷歌近日发布了一款专为移动GPU推理量身定制的轻量级人脸检测器——亚毫秒级的人脸检测算法Blaze Face。它能够在旗舰设备上以200-1000+fps的速度运行,并且可以应用在诸多需要快速准确的识别出人脸区域的任务中,例如:2D/3D面部关键点识别与几何评估、面部特征和表情分类以及面部区域分割等。
当提及“人脸识别技术”的时候,想必大家都不会觉得陌生。“人脸识别技术”自从二十世纪六十年代后期研发,再到九十世纪逐步进入市场,技术的准确率逐步达到了99%的高精准度,有的人脸识别软件在国际标准的LFW数据库中甚至取得了99.15%的准确率,已然反超了人眼的辨认能力。也正因此,各行各业都将人脸识别纳入到了未来的规划前景中,尤其是AI领域的企业,例如旷视科技,依图科技,极链科技等公司,纷纷对此跃跃欲试。
在人脸识别技术发展初期,一个典型的基于视频图像的人脸识别系统一般都是自动检测人脸区域,从视频中提取特征,最后如果人脸存在则识别出人脸的身份。在视频监控、信息安全和出入控制等应用中,基于视频的人脸识别是一个非常重要的问题,也是目前人脸识别的一个热点和难点。基于视频比基于静态图像更具优越性,因为Bruce和Knight等人已证明,当人脸被求反或倒转时,运动信息有助于人脸的识别。虽然视频人脸识别是基于静态图像的人脸识别的直接扩展,但一般认为视频人脸识别算法需要同时用到空间和时间信息,这类方法直到近几年才开始受到重视并需要进一步的研究和发展。
目前视频人脸识别还有很多的困难与挑战,具体来说一是视频图像质量比较差:视频图像一般是在户外(或室内,但是采集条件比较差)获取的,通常没有用户的配合,所以视频人脸图像经常会有很大的光照和姿态变化,还可能会有遮挡和伪装。
二是人脸图像比较小:同样,由于采集条件比较差,视频人脸图像一般会比基于静态图像的人脸识别系统的预设尺寸小。小尺寸的图像不但会影响识别算法的性能,而且还会影响人脸检测,分割和关键点定位的精度,这必然会导致整个人脸识别系统性能的下降。
在这种情况下,提升系统识别的精度与准确度显然成为了人脸识别领域的当务之急。如何利用AI有效的推动人脸识别的发展,成为了人工智能视觉与图像领域中的重点应用。
比如视频AI领域的独角兽极链科技,便提出了以四模块来对场景中的人脸进行识别:
模块一:视频结构化,将视频用镜头分割
在这一环节中,通常采用全局特征和局部特征相结合的方法。全局特征检测全局颜色的分布突变,然后借用局部特征获得的人脸识别的跟踪结果、跟踪轨迹的断续来判断视频是否具有镜头切换。跟踪来判断镜头切换有一个很大的优点,因为后续的步骤也会采用相似的算法,所以这一步骤所需的算法是可以重复使用的。
模块二:人脸轨迹提取
完成了镜头分割以后,就可以分割好的单一镜头里进行人脸轨迹提取。在轨迹提取的算法上,同样要考虑准确率和速度的指标。要实现速度和准确率的平衡,可以有以下两种途径:一是间隔采样or逐帧处理,二是检测&跟踪的配合。
模块三:人脸识别
有了人脸轨迹之后,就可以开始进行人脸的识别了。但是在将人脸数据输入深度网络之前,还需要对其进行必要的变换和处理。其中一部分变换在针对人脸这一部分非常重要,尤其是在消费级视频里,那就是人脸的对齐。人脸对齐是利用人脸的特征点检测定位,将各种姿势的人脸图像还原矫正为正脸的过程。在算法框架中,需要加入人脸质量评估的算法,以过滤低质量的人脸图片,保证人脸数据的准确率。
在样本足够的前提下,可以利用训练得到的模型对人脸样本进行特征提取。测试的时候,在视频中检测得的人脸后,将其输入到生成的特征向量里,与人脸互动的特征向量进行匹配,从而找到在特征空间中最接近的一个样本。
模块四:识别结果融合
以上提到的人脸识别都是针对单帧识别的图片而言的,之前说到的系统识别结果都是针对整个人脸轨迹而言。因此,最后需要将人脸识别的结果与整条人脸轨迹融合起来,得到整个轨迹的识别结果。
识别结果的融合策略也有很多。简单的有投票策略,即将尾帧的识别结果是为一票,识别结果票数最高者则为轨迹的最终识别结果。也有用神经网络来实现这一融合,可以训练一个时间维度上的神经,将每一帧识别出的特征向量作为网络的输入,经过在时间维度上的一系列的参数变换得到最终的特征向量。
如果说AI是时代的浪潮,那人脸识别就是乘风破浪的小舟。在这个“刷脸”从调侃变为现实的今天,借着人工智能的发展,人脸识别可以拥有更高的精度,更强的识别,以及一个更宽广的未来。