探索机器“视觉”演进的无限可能性

2024.07.31

    深度学习中的技术进展帮助机器能像人类一样“看”世界，这是人工智能研究中最具吸引力的部分之一。目前，一种突破性技术将让机器能够通过被称为球面卷积神经网络（spherical Convolutional Neural Networks，缩写CNNs）的处理，去看到并识别三维空间中的物体。从识别极小分子的机器到分析外太空最庞大结构的工具，我们对这项新发现的能力所能实现的种种可能的想象才刚刚开始。当然，这其中还包括了许多介乎两者之间的用例，比如指导机器人在人群中安全导航。
    正如最近这次获奖所展现的，该研究领域是人工智能（AI）发展的前沿领域。Qualcomm Technologies荷兰研究人员Taco Cohen和Max Welling及其合作伙伴，通过与阿姆斯特丹大学联合撰写的《球面CNNs》论文荣获“国际学习表征大会（ICLR：International Conference for Learning Representations）2018年度最佳论文奖”。ICLR主要发布人工智能（AI）和机器学习方面的最新研究，现已举办到第六届。蒙特利尔大学的Yoshua Bengio和纽约大学／Facebook的Yann LeCun共同担任ICLR 2018的主席。在全球顶尖AI实验室提交的约1，000篇投稿中，AI领域最具创新性和影响力的研究被授予最佳论文奖的殊荣。
    该球面CNN论文引入了构建CNNs的新型数学架构，可鲁棒地分析球面图像，并不会受到曲面失真的影响。这是因为：球面CNN具有针对旋转的“等变”特性，它意味着该网络学习到的内部表征会与输入信息同步旋转。从实验的结果来看，球面CNNs在两项截然不同的任务上可实现出色的预测精度：球面图像3D模型识别和原子化能量预测（一项重要的化学问题）。
    球面CNNs为什么重要
    为了理解球面CNNs的重要性，我们介绍一些背景：过去几年，深度学习——尤其是CNNs——已彻底变革了AI，语音识别、视觉对象识别、自然语言处理及其他领域均出现突破性成果。CNNs很擅长分析线性信号，例如音频或文本、图像、或视频，因其具备可识别模式的内在能力，而不管其空间或时间位置如何。这能支持CNNs学习并识别如视觉对象，无论它在图像中位于什么位置，并无需在深度学习模型训练阶段观看同一对象的多个移动版本。但在最近受到关注的多个应用中，我们都希望学习的信号留存在球体上，如汽车、无人机和其他机器人拍摄其整个周边环境的球面图像所使用的全向摄像头。在科学应用中也存在大量球面信号，从地球科学到天体物理学都有相关案例。
    分析此类球面信号的一个方法是把信号投影到平面上，并借助CNN来分析结果。但根据制图学，任何此类“地图投影”都会导致扭曲失真，让部分区域看起来比实际尺寸更大或更小。这会使CNN变得无效，因为随着对象在球体上移动，它们看上去不仅只是在地图上移动，而且还会显得缩小和拉伸。
    如何使用球面CNNs
    球面CNNs在物联网（IoT）、机器人、自动驾驶汽车、增强现实（AR）和虚拟现实（VR）领域都有诸多应用。如今，自动驾驶无人机已向消费者出售，或许有一天它将能在几分钟内把包裹送到你的家门口，这就是球面CNNs可改善物体侦测与识别，以及视觉运动分析的一个自然应用。在AR方面，一整组摄像头所拍摄的360度房间全景可融入至单球面图像中，借助球面CNN的高效分析，精确覆盖虚拟物体。
    Qualcomm对此项工作可能带来的上述应用和其他转换应用倍感兴奋，我们也正在积极推动此项研究及其他数据高效学习研究。