手势识别能否成为车内交互方式的新宠？

2024.03.27

    从汽车被发明以来，人车交互的方式在不断变化。而在最近几年，这种趋势开始变得越来越明显。仅仅在车载信息娱乐系统中，交互方式也开始从最早的实体按键，转向包含按键、触屏以及语音等等方式在内的多维交互方式。
    虽然交互方式在变，但遵从的逻辑从来都没变：方便与安全。比如扩大了手触面积的卡片式 UI、智能后视镜、抬头显示、智能 AI 语音、AR 导航等等，都是为了让驾驶员在开车的时候尽可能方便地传递指令，减少注意力的分散，保证安全。
    目前来看，车载语音交互已经比较普及，很多新车型上都有搭载。但它还是有自己的局限性，比如识别率、识别速度、对自然话术的支持等等都还不完善。这样一来，有时候反而会给驾驶造成额外的负担。
    这时如果能像科幻片里那样，动动手指就能下达某些指令，可能会是一种更好的解决方案。
    事实上，主机厂们也确实再往这个方向发展。2015 年，宝马率先发布了搭载手势识别的 7 系，而且前前后后也不断有 OEM 在尝试推出搭载这项功能的量产车（比如奔驰、拜腾、君马）和 demo（奥迪、福特、大众等），所以这更加深了我们对手势识别的好奇心。
    手势控制正在成为一种更值得期待的车内交互方式。
    手势识别在车内都能做什么？
    通过不同的手势，手势交互可以实现接挂电话、调节音量、选择歌曲、控制导航、控制车辆（空调、座椅、窗户等）等功能，还包括主驾和副驾、后排乘客交互的多种场景。
    虽然手势控制能实现的功能不少，甚至和语音交互的功能还有一定重复。但是在我看来，手势和语音的关系绝不是非此即彼，一定是互相成就。想象一下，当你目视前方，用手指着天窗说打开，然后天窗就打开了，是不是还挺有意思的？
    未来人机交互一定是多维度的。例如宝马全新 5 系就配备了「五维人机交互界面」，其中包括自然语音识别、手势控制、触控屏幕、iDrive 系统和热敏按键。
    这种多模态交互才是未来。
    另外，如果我们把视线从驾驶员的手势扩散开来，类似的技术在驾驶场景还能实现更多功能。
    除了驾驶员的手势之外，手势识别的技术还能识别车外人员的动作。以后，这个功能也许还能识别交警指挥车辆的动作，或者周围骑自行车的人做出的手势。这样既能增加驾驶的安全性，又能促进自动驾驶的发展。
    这些技术还可以实现驾驶员监测，是和目前手机的面部识别解锁类似的技术原理。从全球来说，法律规定在 L2 向 L3 级别的自动驾驶方案过渡时，驾驶员必须时刻监控车辆驾驶，所以随时监控驾驶员的状态在未来一定是必需的部件，而且这个未来很快就要到了。
    既然手势交互和背后的技术对于驾驶有这么多帮助，所以我们有必要了解一下背后的原理。
    实现手势识别的 3 种方案
    前方高能，所以请准备好开始烧脑。
    根据硬件实现方式的不同，目前行业内所采用的手势识别大致有三种：光飞时间（Time of Flight）、结构光（Structure Light）以及双目立体成像（Multi－camera）。
    光飞时间（Time of Flight）：通过光的飞行时间来计算距离。
    光飞时间的原理很简单，先用红外发射器发射调制过的光脉冲，再用接收器采集反射回来的光脉冲，最后根据往返时间计算物体间的距离，从而判断手势。
    其实主要就是依据距离＝光速＊时间。光速是一定的，就可以通过时间差推算距离差。
    结构光（Structure Light）：主动投射已知编码图案，再计算物体位置。
    结构光要先通过红外激光器，将具有一定结构特征的光点投射到目标物体上，再由红外摄像头收集反射的结构光图案。
    因为这些光斑投影在被观察物体上的大小和形状根据物体和相机的距离和方向而不同，所以根据三角测量原理可以计算出物体各个点的具体位置，根据前后位置差异从而能够判断手势。
    双目立体成像（Multi－camera）：两个摄像头采集位置信息，再将畸变数据计算成可用数据。
    双目立体成像非常依赖算法，而且算法的难度和分辨率和检测精度挂钩。分辨率和检测精度越高，计算就越复杂，还会导致实时性较差。它主要分两个步骤：采集信息和计算畸变数据。
    1．采集图像信息。通过两个摄像机提取出三维位置信息，并进行内外部参数的匹配。（摄像机本身存在畸变，如果不经过标定，原本的矩形会显示成不规则的圆角四边形）
    2．计算畸变数据。通过对比经过校准的立体图像，获得视差图像，再利用摄像机的内外参数进行三角计算获取深度图像，根据前后位置的区别进行手势识别。
    像分辨率、成本、测量精度这种问题，三种方案虽然有高有低，但基本都还说得过去，功耗在车内也不是大问题。
    要判断哪种方案合适，要从以下几点着手：1．是否能适应各种环境？2．是否具有优异的实时性？3．在样本范围内，数据误差是否可控？4．成本是否可控？5．体积是否可控？6．硬件插件是否成熟？
    前三点是非常重要的，因为汽车会处在各种环境内，所以抗干扰性、数据实时性、数据准确性非常重要。
    结构光的分辨率高，计算量少，功耗也比较低，此前有很多成型的解决方案，还有 Inter 支持的 RealSense SDK，开发周期较短。但是它受限于主动投射的原理，非常容易受到强光和光滑平面（如镜子）的影响，室外基本不能使用，这点算是致命的。
    双目立体成像的硬件成本比较低，但是它过于依赖图像特征匹配（后期计算），需要很高的计算资源。想要更高的分辨率，计算就越复杂，这就导致它实时性比较差。而且它在光照较暗、过度曝光或者场景本身缺少纹理的情况下，很难进行特征提取匹配。和结构光一样，在抗干扰性这点上它做的不好。
    TOF 方案的分辨率很低，测量精度也不如其他两种方案，但是对于车内手势识别来说已经够了。因为需要光线的全面照射，所以功耗很高，但是这在汽车环境中也不算大事。而且它的体积可控；测量误差在整个范本内比较固定；虽然计算量大，但是算法难度较低；最重要的是它受外界环境干扰较小。综合来看，TOF 方案是个比较实用的选择，也是很多供应商都在努力的方向。


    1  2  下一页>