手部交互领域的一项新突破：ContactPose数据集

2024.04.09 VR陀螺

    文/VR陀螺 X
    手势追踪被视为人机交互(HCI)/人类数据交互(Human data interaction,HDI)中最直观的交互模式之一,是混合现实(XR)终端交互的最新趋势。
    在XR领域中,手部运动轨迹的感知与追踪是改善用户在不同技术领域和平台体验的一个重要组成部分。手部追踪技术在未来可以帮助用户“解放双手”,人机互动不再需要通过手柄控制,实现真正的解放双手,让用户以最直观的方式体验在增强现实和物理世界之间的融合。
    最近热度不断攀升的Oculus Quest 2一体机,在手势追踪识别功能上进行了一系列升级,除了早期的特定手势操控主界面,最新解决方案甚至实现了基于手部追踪的全文本输入操作——即便如此,Oculus对于目前在手势识别技术上取得的成就依然不是非常满意。
    Oculus曾表示,尽管手势是一种有潜力的新型输入方式,但由于计算机视觉与定位技术的局限,手势识别技术的实际应用场景也受到限制。因此,Oculus一直在探索一些有用的技巧来帮助开发者适应手势的局限性,甚至为了让虚拟世界更具3D效果、更加智能地对手势进行回应,Oculus已收购两家虚拟现实手势和3D技术的创业型公司 Nimble VR和13th Lab,以改善其一体机的手势控制功能。
    目前,由于涉及复杂的手指手掌结构和相关软组织在运动时的变化,以及手和物体之间的接触互动有着非常复杂的接触点位和运动区域,强大的实时手部运动感知和追踪已成为公认的一项极具挑战性的计算机视觉任务,是科技研究领域中的大热项目。
    手部交互领域的一项新突破:ContactPose数据集
    就在今年,美国三大理工学院之一的佐治亚理工学院,其机器学习中心更新了有关手部追踪模型数据的新研究 -- ContactPose,一个手部抓握物体时触点动态变化的数据集。
    · ContactPose链接

    ContactPose数据集通过机器学习(ML)和热像仪捕获记录手部抓握不同物体时的每个3D关键触点的变化,精准缩小手势追踪轨迹的总体性偏差。
    ContactPose利用热像仪将被抓握的受作用物体进行热图像纹理网格化,极大程度的减少外部设备干扰,可以支持实现更加敏感精准的手势交互追踪,对于未来开发虚拟现实人机交互建模技术至关重要,该论文研究已被ECCV 2020 (2020年欧洲计算机视觉国际会议)收录。
    这篇文章中,VR陀螺将从覆盖研究组、技术突破点和应用领域三大方面,为行业内感兴趣的相关人士深度解析这项科研成果。
    1．研究组:基本覆盖相关变化指数
    ContactPose的论文研究中,设置的研究组变量覆盖范围很广,这意味着ContactPose全面精准的包括了不同人群、不同物体、不同手部运动轨迹的数据集合。
    总结其主要研究者Samarth Brahmbhatt等人的研究组数如下:
    数据采集主体参与实验者共50人,抓握物品共25种抓握动作的功能目标1．使用该物品2．移交该物品给他人抓握次数数据采集时,所有参与者共抓握物品2306次RGB-D图像3个视点 + 296万个RGB-D图框限制点1．只在空白背景下进行3D物体抓握2．只包括静态抓握
    ContactPose在采集手部追踪数据时,邀请了50名实验者参与对25种不同物品的抓握,包括望远镜、相机、手电筒、眼镜、刀具、红酒杯、牙膏等基本生活用品,通过抓握和移交主体物品的两大手部运动意图,共采集了2306组手部运动触点数据,其研究的主体参量非常丰富,可以实现用户生活中手部追踪触觉点的变化数据采集。

    ContactPose数据集的呈现包括高分辨率的触点视图、3D关节追踪和多视图RGB-D手部抓握动态视频,并且区分左右手,左手为绿色,右手为红色,通过明晰的颜色区分,能够追踪更复杂的双手运动。
    2．研究突破点:防干扰热像仪可追踪到手部具体3D关节
    手部追踪的人机交互领域作为亟需突破的领域之一,近年来有很多代表性的手势交互技术更新。在手势追踪数据采集上,大部分研究都通过触觉手套或其他设备捕捉手部运动数据,这意味着有的时候这些外部设备会影响手部运动的灵活性和主体自发性。
    但佐治亚理工学院Samarth Brahmbhatt研究小组其最大突破为,用热像仪把被抓握的受作用物体的表面纹理网格化,通过C相机记录观察手部抓握物体时每一帧RGB-D成像图的变化,ContactPose不仅减少外部设备和环境限制的干扰,更通过高帧密集观察实现了敏感精准的手势交互追踪。
    ContactPose利用机器学习的大原理来进行手势运动感知,但因引入热像仪追踪技术,其可根据一帧图像推断出单手的21个3D立体关节点,支持高准确性的手势和五指关节追踪。换言之,其他很多手势交互的研究是不能进行具体手指关节追踪的,即只能体现整体手部运动但却不知道是具体哪个手指尖先触碰了物品。但ContactPose却可以精准定位到具体手指部位、手部运动时的先后顺序。

    并且根据数据分析对比,ContactPose在数据库规模、手部物体触点追踪、手势和物体运动变化触点等方面十分突出。
    其实ContactPose并不是Samarth Brahmbhatt研究小组在这一领域的处女作,早在2019年,佐治亚理工学院发布了只包括触点分布图和RGB-D成像图的ContactDB数据集研究。而相比之下,ContactPose是一次全面升级。

    ContactDBContactPose触点图只有手部触点分布图3D关节追踪RGB-D成像图简单、可转动多视图、高分辨率追踪功能手部整体成像可追踪到具体手指、关节抓握数据采集可预测抓握方法适用于人机交互中的复杂抓握识别
    通过交叉对比,ContactPose无疑是手势交互数据的一次重要突破。不仅为日后的手部人机交互设备研发提供了数据基石,更通过数据的剖析揭示了手势和主体事物接触点的变化关系,为建立手势运动触点模型提供了体系结构算法参考。
    ContactPose应用前景:助力高精度级别手势识别,或许可取代手柄操控
    在2019年的第 6 届Oculus Connect大会上,扎克伯格表示了进军手势交互领域的心,想要实现一个用户不用拿着手柄、也没有按钮、没有腕带,甚至没有其它传感器的自由交互的虚拟现实沉浸世界。
    目前,由于没有高精度级别的手势识别交互系统支持,手柄控制器长期以来就相当于用户在虚拟世界中的双手,无论是 Oculus 还是 HTV Vive 的 VR 头盔,都需要借助独立的手柄控制器来实现手部运动追踪。
    但手柄控制器的存在却一直局限着用户在虚拟现实中的交互真实性。比如说当用户要在游戏中拿起一个物体,只能将手柄靠近并按键,这显然破坏了虚拟世界沉浸交互的整体性,不够真实。
    然而,随着更多的类似于ContactPose这种手势数据规模化的支持,未来实现从真正的3D用户界面,到虚拟对象操作,再到移动机制,以手部为中心的虚拟现实产品设计理念是存在可能的。手势控制可以自由的取代语音或者手柄控制,亦是成为未来虚拟现实的大方向。
    介于ContactPose在很大程度上可以为实现无接触手势运动追踪和操控机器界面的技术提供了数据化支持,未来通过实时采集用户手势,将手势的运动轨迹转换为虚拟现实中的指令,可以实现自然、高效的人机交互,让用户完全的沉浸在一个新的可以自由运动的虚拟世界。
    但通俗的谈及到手势交互应用的落地场景,现有的手势交互技术与完全自然、高效的交互,仍然存在一定距离。
    手势交互应用的难点主要在于难以形成一致的手部操作方式,加上其属于非精确性指令操作,其应用范围会受交互设备、识别方法、用户熟练程度等多个因素影响。由于不同用户对不同产品使用手势交互时,其手部运动轨迹也大相径庭,所以用户可能需要预先训练一段时间去掌握相关设备或者系统,一定程度上是用户要满足机器的模版识别度。但ContactPose包括着不同人群抓握不同物体时的数据集,这意味着,日后随着数据采集的规模化,机器可以开始轻松识别不同的手势运动轨迹,从而实现机器识别的个性化、灵活性。
    未来手势交互将成为新一代“触屏”
    纵观Oculus或者HoloLens这些行业领头羊的设备,在用户使用时,很多时候由于对手势识别的不敏感或者错误偏差,使得用户不得不依赖于手柄操作和语音控制来完成对虚拟现实设备界面的指令,手势交互的人机操控方式在技术上显然不够成熟,尚且还处在行业早期阶段。
    但根据对ContactPose等相关数据集的研究分析,VR陀螺在此认为,随着日后手部运动追踪数据库的大规模完善,手势交互会像之前的触屏手机一样,成为新一代XR领域的主导人机交互方式,让用户无缝的在虚拟与现实世界中切换。