被低估的单目视觉识别

2022.11.01

    对单目来说物体越远，测距的精度越低，硬件上的缺点可以通过算法去弥补，近日有两篇关于单目视觉的研究论文曝光，一篇是单目视频的深度估计，另一篇则是单目3d物体识别，在数据集下测试都取得了不错的效果，我们熟悉的单目摄像头可能一直被低估了。
    摄像头是自动驾驶汽车中重要的传感器之一，在自动驾驶过程中的首要任务就是道路识别，主要是图像特征法和模型匹配法来进行识别。行驶过程中需要进行障碍物检测和路标路牌识别等，此时车辆上的信息采集便可以运用单目视觉或者多目视觉。

    由于很多图像算法的研究都是基于单目摄像机开发的，因此相对于其他类别的摄像机，单目摄像机的算法成熟度更高。基于单目摄像头可以用来定位、目标识别等。但是相比多目，单目有着先天的缺陷，视野信息不能够丰富，单目测距的精度也较低。
    不过单目摄像头的作用还未发挥到极致，近日有两篇关于单目视觉的研究，让众多研究者惊艳，原来单目一样可以有不错的表现。
    Paper1：Orthographic Feature Transform for Monocular 3D Object Detection

    单目3d物体检测是一件很有挑战性的事情，目前最先进系统的成绩也不及用激光雷达的1／10，剑桥大学的科学家利用单目视觉进行3d物体识别，通过引入正交特征变换，使基于图像的特征映射到正交3D空间，来避免形成图像域，可以全面地推断出各个物体比例尺寸以及相隔的距离。通过在KITTI数据集里测试，发现与前人的Mono3D方法对比，这种方法在鸟瞰图平均精确度、3D物体边界识别上各项测试成绩上均优于对手。
    尤其在探测远处物体时要远超Mono3D，远处可识别出的汽车数量更多。甚至在严重遮挡、截断的情况下仍能正确识别出物体。在某些场景下甚至达到了3DOP系统的水平。
    在这项工作中，提出的一种新颖的单目三维物体检测方法，基于在鸟瞰视野范围内操作的，减轻了许多不良图像的属性，更易于推断出世界的3D结构。用一种简单的正交特征变换，将基于图像的特征转换为这种鸟瞰视图表示，并描述了如何使用图像积分有效地实现它，以深二维卷积网络的形式应用于提取的鸟瞰特征，取得了不错的效果，说明单目还有很大可开发的空间。
    Paper2：A Structured Approach to Unsupervised Depth Learning from Monocular Videos

这是谷歌的工程师做的一个研究，他利用单目视频深度估计，自从2014年NIPS上出现第一篇用CNN－based来做单目深度估计，近几年也不断涌现出一些做单目深度估计的文章，有直接依靠深度学习和网络架构得到结果，还有依靠于深度信息本身的性质进行估计，基于CRF和基于相对深度方法的，本篇文章是基于无监督学习单目视频深度估计。文中的方法能够模拟运动物体并产生高质量的深度估计结果，与以前的单目视频无监督学习方法相比，该方法能够恢复移动物体的正确深度。也就说，能够正确地恢复与自身运动车辆相同速度的移动汽车的深度。因为一台相对静止的车辆，往往会表现出与地面相同的无线深度特征，解决了高动态场景中的问题。
这些方法仍需要很长时间去测试其可靠性，相比激光雷达，单目算法一旦能在无人驾驶汽车上成功应用，将会节省一大笔费用，单目视觉识别可能还有着无限的市场潜力。