Holopix50k发布: 最多最丰富的双目数据集大幅提升多个相关任务性能?

2024.03.31 将门创投

      随着配备双目摄像头的智能手机逐步增加，利用计算机视觉处理立体信息的需求也变得越来越重要。但现有的立体视觉数据集无论在数量和多样性上都不足以支持丰富场景的双目立体应用。
    为了解决这一问题，来自Leia公司的研究人员们构建了一个包含49368对图像的立体视觉数据集Holopix50k，这一数据集从大小和多样性上都超过了现有的公开数据集，在立体图像超分辨、单目深度估计等任务上都取得了非常大的性能提升。
    立体视觉的及其广泛应用
    近年来随着硬件的发展，立体视觉已经在智能手机中普及。通过双目摄像头不同视角的拍摄下能够得到场景的立体信息，对于3D照片、虚拟现实和交互等应用有着重要的作用。此外移动机器人和自动驾驶的迅速发展，也为立体视觉算法提出了更高的要求，需要在更为复杂的场景、多样的真实环境中有效工作。
    立体视觉的主要任务包括立体视差估计、基于自监督或者无监督方法对单张图像输入进行单目深度估计和基于立体图像提升分辨率的图像超分辨等任务。这些任务都需要高质量的大规模双目／深度数据集来进行训练。
    目前人工智能领域的深度学习算法在多个领域取得重大的进展，但大规模的、多样性的数据需求却成为了立体视觉领域开发出优秀算法的阻碍！大规模的立体数据集是提升算法性能的关键之一。
    目前立体视觉领域的数据集主要包括像KITTI，Middlebury、NYU Indoor等较为流行的真实数据集、还包括Make3D、ETH3D、CMLA和Cityscape等针对特定领域的数据集，近年来还出现了像Flickr1024和WSVD等场景更为丰富的数据集，但这些数据集在数量和相关指标上并没有良好的结果。
    此外为了克服真实世界中数据收集的困难，研究人员还提出了利用图形学渲染的方法来渲染获取大量的双目数据，主要包括MPI Sintel、SceneFlow、UnrealStereo和3D Ken Burns等数据，但合成数据应用于真实场景会受到域迁移问题的影响，同时还需要很大的努力来构建丰富的数字化场景。而Holopix50k的目的就在于综合解决这些存在的问题。
    Holopix50k
    这一数据集主要从社交媒体平台上收集而来，Holopix是目前最主流的3D摄影共享平台，包含了大量的多视角立体视觉照片并可以利用视差效应来显示出三维效果。这里汇集了世界上最为丰富的立体视觉社交媒体图像，用户只需要上传两个或多个视角，就可以在光场显示设备上获取多视角图像，也可以在普通设备上获取基于移动的模拟立体图像。

在Holopix平台上RED Hydrogen One拍摄的图像最多，作为第一款集成光场性能的消费级手机，它可以提供四个视角的多角度显示。它拥有两个水平排列的相机，同时对图像进行了校正并收敛于立体图像的平均视差。与Flickr1024不同的是，这种方法并没有对图像进行剪切来使得图像片收敛于无穷远处的立体视差。

    在最开始的阶段，研究人员首先从Holopix上收集了约70k适合于作为数据集的立体视觉图像对，针对左右图像分辨率不匹配的情况会将两张图像的分辨率统一为其中较小的分辨率，利用高斯平滑和双三次插值来将分辨率较高的图像进行下采样。


    1  2  3  下一页>