一文读懂：深扒人脸识别60年技术发展史

2024.03.28

    “他来听我的演唱会，门票换了手铐一对”。最近歌神张学友变阿SIR，演唱会上频频抓到罪犯，将人脸识别技术又一次推到了大众的视线中。要说人脸识别技术的爆发，当属去年9月份苹果iPhone x的发布，不再需要指纹，只需要扫描面部就可以轻松解锁手机。任何技术一旦进入智能手机这个消费市场，尤其是被苹果这个标志性的品牌采用，就意味着它将成为一种趋势，一个智能设备的标配。
    在智能手机快速崛起的这几年，其密码锁经历了从数字密码、手势解锁到指纹识别的升级，发展到如今的虹膜识别和人脸识别。可以预料的是，由于全面屏幕的普及和更为安全、便捷的 FaceID 技术的出现，在不久的将来，指纹识别也将被智能手机厂商们所抛弃，完成它的历史使命。
    那么人脸识别到底是一项怎样的技术，这期《趣科技》，与非网小编就将带大家走进人脸识别，聊聊这项黑科技。
    人脸识别是啥玩意儿？
    人脸识别技术，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术，通常也叫做人像识别、面部识别。传统的人脸识别技术主要是基于可见光图像的人脸识别，这也是人们熟悉的识别方式。简单的来说就是一个让计算机认出你的过程。
    人脸识别技术主要是通过人脸图像特征的提取与对比来进行的。人脸识别系统将提取的人脸图像的特征数据与数据库中存储的特征模板进行搜索匹配，通过设定一个阈值，当相似度超过这一阈值，则把匹配得到的结果输出。将待识别的人脸特征与已得到的人脸特征模板进行比较，根据相似程度对人脸的身份信息进行判断。这一过程又分为两类：一类是确认，是一对一进行图像比较的过程，另一类是辨认，是一对多进行图像匹配对比的过程。
    广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。
    人脸识别技术发展
    早在20世纪50年代，认知科学家就已着手对人脸识别展开研究。20世纪60年代，人脸识别工程化应用研究正式开启。当时的方法主要利用了人脸的几何结构，通过分析人脸器官特征点及其之间的拓扑关系进行辨识。这种方法简单直观，但是一旦人脸姿态、表情发生变化，则精度严重下降。
    1991年，著名的“特征脸”方法第一次将主成分分析和统计特征技术引入人脸识别，在实用效果上取得了长足的进步。这一思路也在后续研究中得到进一步发扬光大，例如，Belhumer成功将Fisher判别准则应用于人脸分类，提出了基于线性判别分析的Fisherface方法。
    由剑桥人脸数据集的特征分解获得的前四个特征向量
    21世纪的前十年，随着机器学习理论的发展，学者们相继探索出了基于遗传算法、支持向量机（Support Vector Machine， SVM）、boosting、流形学习以及核方法等进行人脸识别。 2009年至2012年，稀疏表达（Sparse Representation）因为其优美的理论和对遮挡因素的鲁棒性成为当时的研究热点。
    与此同时，业界也基本达成共识：基于人工精心设计的局部描述子进行特征提取和子空间方法进行特征选择能够取得最好的识别效果。Gabor及LBP特征描述子是迄今为止在人脸识别领域最为成功的两种人工设计局部描述子。这期间，对各种人脸识别影响因子的针对性处理也是那一阶段的研究热点，比如人脸光照归一化、人脸姿态校正、人脸超分辨以及遮挡处理等。也是在这一阶段，研究者的关注点开始从受限场景下的人脸识别转移到非受限环境下的人脸识别。LFW人脸识别公开竞赛在此背景下开始流行，当时最好的识别系统尽管在受限的FRGC测试集上能取得99％以上的识别精度，但是在LFW上的最高精度仅仅在80％左右，距离实用看起来距离颇远。
    2013年，MSRA的研究者首度尝试了10万规模的大训练数据，并基于高维LBP特征和Joint Bayesian方法在LFW上获得了95．17％的精度。这一结果表明：大训练数据集对于有效提升非受限环境下的人脸识别很重要。然而，以上所有这些经典方法，都难以处理大规模数据集的训练场景。
    2014年前后，随着大数据和深度学习的发展，神经网络重受瞩目，并在图像分类、手写体识别、语音识别等应用中获得了远超经典方法的结果。香港中文大学的Sun Yi等人提出将卷积神经网络应用到人脸识别上，采用20万训练数据，在LFW上第一次得到超过人类水平的识别精度，这是人脸识别发展历史上的一座里程碑。
    表1 人脸识别经典方法及其在LFW上精度对比
    自此之后，研究者们不断改进网络结构，同时扩大训练样本规模，将LFW上的识别精度推到99．5％以上。如表1所示，我们给出了人脸识别发展过程中一些经典的方法及其在LFW上的精度，一个基本的趋势是：训练数据规模越来越大，识别精度越来越高。
    人脸识别十大关键技术
    1、人脸检测（Face Detection）
    “人脸检测（Face Detection）”的作用就是要检测出图像中人脸所在位置。
    人脸检测算法的输入是一张图像，输出是人脸框坐标序列，具体结果是0个人脸框或1个人脸框或多个人脸框。输出的人脸坐标框可以为正方形、矩形等。
    人脸检测算法的原理简单来说是一个“扫描”加“判定”的过程。即首先在整个图像范围内扫描，再逐个判定候选区域是否是人脸的过程。因此人脸检测算法的计算速度会跟图像尺寸大小以及图像内容相关。在实际算法时，我们可以通过设置“输入图像尺寸”、或“最小脸尺寸限制”、“人脸数量上限”的方式来加速算法。
    举例说明：绿色矩形框标注的即为人脸检测算法检测到的人脸位置
    2、人脸配准（Face Alignment）
    “人脸配准（Face Alignment）”所实现的目的是定位出人脸上五官关键点坐标。
    人脸配准算法的输入是“一张人脸图像”和“人脸坐标框”，输出是五官关键点的坐标序列。五官关键点的数量是预先设定好的一个固定数值，常见的有5点、68点、90点等等。
    当前效果的较好的一些人脸配准技术基本通过深度学习框架实现。这些方法都是基于人脸检测的坐标框，按某种事先设定规则将人脸区域抠取出来，缩放到固定尺寸，然后进行关键点位置的计算。另外，相对于人脸检测，或者是后面将提到的人脸特征提取的过程，人脸配准算法的计算耗时都要少很多。
    举例说明：输入图像以及输出结果如下，绿色圆点标注出了五官位置。
    3、人脸属性识别（Face Attribute）
    “人脸属性识别（Face Attribute）”是识别出人脸的性别、年龄、姿态、表情等属性值的一项技术。这在有些相机APP中有所应用，可以自动识别摄像头视野中人物的性别、年龄等特征并标注出来。
    一般的人脸属性识别算法的输入是“一张人脸图”和“人脸五官关键点坐标”，输出是人脸相应的属性值。人脸属性识别算法一般会根据人脸五官关键点坐标将人脸对齐，具体过程为旋转、缩放、抠取等操作后，将人脸调整到预定的大小和形态，以便之后进行属性分析。
    人脸的属性识别包括性别识别、年龄估计、表情识别、姿态识别、发型识别等等方面。一般来说每种属性的识别算法过程是独立的，但是有一些新型的基于深度学习实现的算法可以实现同时输出年龄、性别、姿态、表情等属性识别结果。
    举例说明：人脸属性识别输出结果如下
    4、人脸提特征（Face Feature Extraction）
    “人脸提特征（Face Feature Extraction）”是将一张人脸图像转化为可以表征人脸特点的特征，具体表现形式为一串固定长度的数值。
    人脸提特征过程的输入是 “一张人脸图”和“人脸五官关键点坐标”，输出是人脸相应的一个数值串（特征）。人脸提特征算法实现的过程为：首先将五官关键点坐标进行旋转、缩放等等操作来实现人脸对齐，然后在提取特征并计算出数值串。
    举例说明：人脸特征提取过程
    5、人脸比对（Face Compare）
    “人脸比对（Face Compare）”算法实现的目的是衡量两个人脸之间相似度。
    人脸比对算法的输入是两个人脸特征人脸特征由前面的人脸提特征算法获得，输出是两个特征之间的相似度。
    举例说明：人脸对比过程，输出结果为相似度96％
    6、人脸验证（Face Verification）
    “人脸验证（Face Verification）”是判定两个人脸图是否为同一人的算法。
    它的输入是两个人脸特征，通过人脸比对获得两个人脸特征的相似度，通过与预设的阈值比较来验证这两个人脸特征是否属于同一人。
    举例说明：人脸验证过程如下，相似度96％大于阈值75％，判定属于同一个人


    1  2  3  下一页>