CVPR 2020 最佳论文提名 | 神经网络能否识别镜像翻转

2024.04.04 将门创投

    作者：美国康奈尔大学四年级本科生林之秋将门好声音第·55·期CVPR 2020系列分享第·14·期2020年让我们不断见识到“后浪”的超强力量，也让世界看到了瞩目的华人新星。在今年6月举办的CVPR中，年龄最小的一位一作获奖者甚至还在本科阶段。他就是来自康奈尔大学的四年级学生、98年出生的AI科学新秀——林之秋。
    林之秋以一作身份提交CVPR 2020的论文「视觉手性」（Visual Chirality）获得了最佳论文提名奖。在本文中，林之秋等人首次挑战了常规神经网络训练中图片”翻转不变性“（flip－invariant）的这一假设，在多种领域上利用卷积神经网络发现了许多常人难以捕捉的”视觉手性“线索，并通过自监督训练在多项数据集上达到了60％甚至到90％的精度。
    本文作者

    林之秋，就读于美国常春藤高校康奈尔大学。他同时选修了计算机和数学两个专业，仅用两年时间就全部修完本科课程。大二开始选修博士课程，同时跟随计算机系的教授从事科研工作。由于成绩极为优异，自大二起林之秋就接受计算机系里邀请，以助教身份给高年级同学讲课，为康奈尔科技学院的同学编写硕士生的预修课程，甚至在高阶机器学习课上给博士生的卷子打分。
    刚刚21岁、本科毕业的林之秋，在学院数千名学生中名列前三，被授予学院最高荣誉，并受院长邀请代表学院在毕业典礼上举旗。之后，他即将前往专业排名世界第一的卡内基梅隆的机器人学院攻读博士学位。
    导读：
    镜子的历史与人类文明几乎一样长，而古今中外文学史上有关镜子的描写更是数不胜数。从爱丽丝镜中奇遇记，到西游记里托塔天王的照妖镜，再到J·K·罗琳笔下哈利波特世界里的厄里斯魔镜，这些有关镜子的故事都可谓是家喻户晓。在近年来的计算机视觉领域，镜像翻转更是一种最为常用的数据增强方法。
    然而，在本届CVPR 2020中获得Best Paper Nomination的「视觉手性」（Visual Chirality）一文中，来自康奈尔大学的研究员林之秋等人首次挑战了常规神经网络训练中图片”翻转不变性“ （flip－invariant）的这一假设。这篇文章在多种领域（人脸，互联网图片，数字处理图像）上利用卷积神经网络发现了许多常人难以捕捉的”视觉手性“线索，并通过自监督训练在多项数据集上达到了60％甚至到90％的精度。

    一、简介
    神经网络训练需要大量标注数据，但数据又永远是有限的。为了用有限的标注数据来拟合函数，人们使用数据增强（data augmentation）的方法来低成本得获得更多的标记数据。
    而镜像翻转则是最常用的图像数据增强方法之一。只需要将所有图片都进行一次镜像翻转，我们就相当于免费得到了双倍的数据。

    但事情真的这么简单么？当我们翻转了数据集里所有的图片时，神经网络所拟合的函数还能代表原先的图像分布么？来自康奈尔大学研究员的「视觉手性（Visual Chirality）」这篇论文首次讨论了这一话题。
    为了理解这一镜像翻转话题，我们先从一个小测试开始：
    你能判断以下三张图片哪张被镜像翻转（水平翻转）了吗？

    图一：镜像翻转（线索：文字）。我们可以很容易看出来文字被翻转过了。
    图二：没有翻转（线索：纽扣）。男士衬衫的纽扣一般位于身体右侧。
    图三：镜像翻转（线索：吉他）。吉他手的主手应当在吉他右侧。
    对于大部分的互联网图片来说（例如图二图三），镜像翻转对于人类而言并没有多少区别，因而难以判断。然而，神经网络却可以通过自监督训练的方法在这个任务上达到非常高的精度，并能指出图片中哪些区域可以被用于识别镜像翻转（以上三张图片利用了类激活映射（CAM）方法进行了高亮）。
    康奈尔的研究人员将这一视觉现象定义为“视觉手性”（Visual Chirality）。
    在化学等学科上，手性（Chirality）的定义为“一个物体无法与其镜像相重合”。这种不对称性在自然界大量存在，并在不同领域有着广泛的应用。

    手具有手性（Chiral），因为镜像翻转后无法与原图重合。而杯子是轴心对称，所以不具备手性。
    手性（Chirality）代表着单个图片的翻转不对称性，而视觉手性（Visual Chirality）则是针对图像分布（Image Distribution）所定义的翻转不对称性。
    假设一个图像分布中包含了右手和左手的照片（左右手的图片出现概率一致），那么此时，尽管每张图片都具有手性，这个图像分布却不具备视觉手性。这是由于左手镜像翻转后就和右手长的一样了。反之，假设一个图像分布中只存在右手不存在左手，那么这个分布就具备视觉手性（或称翻转不对称性），因为我们知道一张左手的照片必然为镜像翻转。
    用统计学的术语来定义的话，假设有图像分布D，而其中一个图像是x，那么其在分布中出现概率是D（x）。我们将镜像翻转的操作称为T，而翻转图片x我们可以得到T（x）。
    那么图像分布D具备视觉手性意味着：D中存在图片x，满足D（x）≠D（T（x））的条件。
    如下图所示，假设我们有一个一维的分布（横轴上每个点都为一个元素），那么蓝色实线所代表的分布则具备视觉手性，因为x1和x2分别与T（x1）和T（x2）的出现概率不一致：

    当一个图像分布具备视觉手性时，使用镜像翻转作为数据增强方法将不可避免的改变一个数据集所代表的分布。换句话说，只有当一个图像分布不具备视觉手性的时候，我们才能在不改变原先图像分布的前提下，使用镜像翻转来增强数据集。
    然而，视觉手性是大部分视觉领域都拥有的属性。正如此篇文章作者，谷歌AI科学家Noah Snavely教授所说：

    “在计算机视觉的研究中，我们常把这个世界视为”翻转不变“的，镜像翻转因而是一个常规的数据增强方法。然而，当你翻转图片后，文字将被颠倒，左手变为右手，而螺旋意大利面也将朝相反方向旋转。”
    为了挑战了人们先前在计算机视觉中对于“翻转不变性”的假设，「视觉手性」这篇文章通过自监督训练在几个不同视觉领域验证了“视觉手性”的存在。
    二、训练方法
    「视觉手性」这篇文章利用了自监督学习（self－supervised learning）方法来训练卷积神经网络。对于任何一个数据集，只需要将其原有的图片标记为“无翻转”，并将镜像翻转过的图片标记为“有翻转”，即可训练神经网络识别镜像翻转这一二分类任务（binary classification）。同时我们可以根据神经网络在验证集（validation set）的表现上来评估这一图像分布是否具备视觉手性：如果验证集上的精度要显著大于50％，我们便有充足的证据来证明视觉手性的存在。
    作者在这篇文章中利用了ResNet－50作为基本的网络结构，并使用SGD方法来训练网络。基于先前自监督学习方法的启发，作者将同一张图片的原图和翻转图放到了SGD的同一batch里（shared－batch training），加速了网络的训练。
    为了了解神经网络学到了哪些视觉手性线索，作者利用了类激活映射（CAM：Class Activation Map）方法，在原有图片上对于视觉手性敏感的区域进行了高亮。同时因为能造成视觉手性的现象有很多，作者推出了一个简单的基于类激活映射的聚类方法：手性特征聚类（Chiral Feature Clustering）。
    三、手性特征聚类方法
    类激活映射方法本质上是对于神经网络最后一层卷积层输出的特征图（feature map）的加权线性和（linear weighted sum）。当我们假设神经网络是利用区域特征（local feature）来判断图像是否为镜像翻转时，我们可以将类激活映射（CAM）最强的区域视为神经网络最为关注的区域特征。只需要取最后一层卷积层输出的特征图上这一区域的特征，便可以利用传统的聚类方法例如K－means clustering进行自动分类。
    ResNet－50最后一层卷积输出的特征图为一个（16x16x2048）的三维矢量f，而类激活映射所得到的热图（heatmap）为（16x16）的二维矢量A。假设热图上数值最大的点为（x＊，y＊），那么我们用来聚类的区域特征即为f（x＊，y＊）。
    作者在多个不同图像分布上利用手性特征聚类方法对视觉手性现象进行了归因和讨论。
    四、互联网图片集
    在互联网图片集上（Imagenet，Instagram，Flickr－F100M），神经网络在镜像翻转识别上取得了高达60％－80％的精度。

    作者着重分析了Instagram图片上的视觉手性现象。在不用随机剪裁（random cropping）时，神经网络在测试集上取得了高达92％的精度。然而因为有JPEG压缩失真的可能性存在（JPEG edge artifact一般出现于图片的边缘），作者同样使用随机剪裁进行了训练，并仍旧取得了高达80％的精度。考虑到大量Instagram图片有配文字，而文字是最明显的视觉手性现象，作者用文字识别器滤除了Instagram中含有文字的图片重新进行了训练，但仍旧在测试集上取得了74％的高精度。值得一提的是这些训练出来的模型具有一定程度的泛化能力，可以不经训练，在其他的互联网图片集（Flickr F100M）上取得高于50％的精度。
    作者在Instagram图片集上进行了手性特征聚类，并挑选了一系列与我们生活相关的典型视觉手性现象进行讨论。

1、手机

    对着镜子自拍是人们最爱做的事。此类照片具有视觉手性，因为手机的摄像头一般固定在手机背面的一侧（因品牌而异），同时由于多数人是右撇子，一般都以右手持手机进行自拍。
    2、吉他

    几乎大多数的吉他手都以右手拨弦，左手持把。
    3、手表

    手表一般都被带在人们的右手侧。
    4、男士衬衫领子

    男士衬衫的扣子一般处于右侧。
    5、上衣口袋

    正装上衣的口袋几乎无一例外处于身体左侧，为了更好地服务于占大多数的右撇子。
    6、人脸

    更令人吃惊的是，类激活映射方法在大量的人脸上出现了较强的反应，说明人脸中视觉手性的存在。多数情况下人脸通常被认为是对称的：此届CVPR 2020另一篇Best Student Paper （Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild）更是将人脸视为了轴心对称的物体，并以此为线索来进行3D重建。
    需要强调的一点是，这些视觉手性现象在每张图片中看似孤立，但神经网络仍有可能会利用多种不同的线索来对图片是否翻转进行判断。


    1  2  3  4  下一页>