uSens凌感发布单目RGB相机上的三维手势骨骼识别

VR陀螺

     交互一直是VR/AR体验中最为重要也是最难实现的一块,手柄、力反馈、能模拟冷热痛感的装置、体感、手势……交互的纷繁复杂也给内容开发者增添了更多的工作量和开发难度。
    其中手势被称为最自然的交互方式,但截止到目前,几乎所有的手势都是依靠双目红外和深度相机实现的三维骨骼识别,成本相对较高,对性能要求也更高。
    如何基于单目RGB摄像头实现更精准的手势识别,成为了诸多企业努力的方向。
    总部位于杭州 的 uSens凌感科技一直致力于手势识别的研发和迭代,其提供的手势识别技术在AR、VR业界已经有一定知名度。但前几年凌感的手势识别主要是使用双目红外和深度相机上实现的三维骨骼识别,应用在头显和汽车等一些智能硬件上。
    最近凌感公司发布了可以运行在单目彩色摄像头上的三维骨骼手势跟踪识别,可识别手部全部22个关节点的26DOF(26自由度)信息,关节点包括3D位置信息和3D旋转信息。 
    这一技术的亮点在哪里呢?本文将对此一一介绍。
    相机(摄像头模组)的种类很多, 双目红外相机(uSens Fingo, Leap Motion)、双目彩色、TOF相机(厂家很多)、结构光相机、单目红外相机、普通RGB彩色相机等。其中,普通彩色相机是成本最低、使用最广泛的一种,已经内置于所有的手机、绝大部分AR&MR Glass里以及一部分VR HMD中。
    可惜彩色相机的手势算法最难实现,因为复杂的背景混淆,各种光照条件,不同的肤色等等,单个彩色RGB相机只获取2D图像,提取3D信息非常困难,无法直接提供深度信息,所以很难做出三维的识别和跟踪。 
    目前有些手机上不是已经有了简单手势的自拍功能吗?是的。目前市场上有的,被部分手机和AR眼镜使用的只是基于单目RGB相机的简单二维手型,简单固定手势识别。 
    用户做一个大概的手型,像一个Yes或握拳等,通过一个简单形状来表示某个意思。但不能用手在游戏或其他APP里做任何带深度的、自然的操作,不能做到和物体交互,因为二维的手型识别没有骨骼跟踪,更没有深度信息。
    
    为什么需要手的骨骼跟踪识别呢?因为人体最灵活的就是双手了。我们的手因为有手指和关节,可以做各种自由度的运动,所以手上可以做出千变万化的动作,让我们有可能去操作各种仪器,以及用各种手势来表达自己。手的动作很多,很复杂、很快。如果不是跟踪每一个关节,所有自由度的运动,就无法真的跟踪识别出所有手的动作,也很容易丢失。
    所以在计算机视觉领域,最好最有意义的就是手的三维骨骼跟踪识别。能做到这个层次的只有Leap Motion 和uSens 凌感,但以前只能在双目和深度相机上实现,且成本一直比较高。
    最近几年来,uSens 凌感在不断研发的过程中,结合领先的深度学习技术,取得了突破性的进展,实现了在最简单的单目RGB相机的3D手势骨骼识别技术。 
    这个技术可以用于各种带有普通RGB相机的场景,从所有智能手机内置的相机,到AR、MR、VR HMD到工业控制、IOT等多个领域,已经达到了产品级的性能,并应用在多个工业客户的产品里。
    凌感基于RGB相机的3D手势骨骼技术可识别手部全部22个关节点的26DOF(26自由度)信息,关节点包括3D位置信息和3D旋转信息。  
    26个自由度,对手部3D状态实现最全面的解析,对用户所有自然手部运动都有良好识别,对上百万个连续交互状态进行跟踪。从简单固定的几个手势,到连续自然状态的全面识别跟踪,该技术的实现是一个巨大飞跃。
    凌感的手势算法适应日常各种光照、环境、各类人群和所有的自然手部运动,无需初始化,只要有一个摄像头,任何人立刻上手使用,系统立刻开始识别,可以跟踪快速运动,包括移动、转动、各种快速手指状态变化。
    另外手势识别领域的另一个难点,对遮挡部分的跟踪识别也通过最先进的人工智能算法得到突破。
    视觉算法会需要很高的芯片计算能力,以前对运行平台要求较高,uSens凌感公司在性能上做了大量优化,适配于各种中、高、低端移动平台,即便在中低端手机也能运行良好。
    
    对于我们今年最关注的AR Glass来说,用自带的RGB相机,加上自然的3D手势骨骼交互,可以实现最好的交互体验,随心所欲得用双手操作。
    当然,如果大家都愿意多花成本,用深度相机或双目的话,凌感的手势识别效果会更震撼哦。