苹果Vision Pro催熟XR交互

2024.07.27 VR陀螺

文/VR陀螺元桥

    为了让XR设备的控制器更加贴近自然，业内做过很多种尝试，像Meta前几年曾公布的触觉手套，索尼近期公布的游戏手套，还有绑在手腕上的控制器，外挂气味套件等等。
    只是由于大多数交互方式的尝试很难落地，搞了好几年仍是概念产品。目前，XR交互仍以头部和手部的6DoF追踪定位为主，未来XR的交互的重点仍将以手部以及头部为主，只是围绕的中心正在发生变化。

2023年6月，苹果发布其初代MR头显，摒弃了手柄，采用了以语音+手势+面部/眼睛追踪为主的更加自然的交互方式。为了更好理解XR交互方式的迭代，本文梳理了XR交互方式的迭代变化过程与趋势。

     VR交互发展的第一次冲锋
    1995年，任天堂发布了一款早期VR概念的便携式游戏机Virtual Boy，也算是VR交互发展的首次冲锋，当时各大媒体的报道都给予了这款产品很高的评价。
    山内溥更是在1995年Q1的股东大会上欣然允诺：“Virtual Boy将在发售的第一财年里出货500万台，为任天堂带来800亿日元的利润。”然而Virtual Boy发售不到半年就迅速走向了「死亡」，评价也是一落千丈。

任天堂自然是希望Virtual Boy能成为它弯道超车的机会，一举抢占新赛道。但从Virtual Boy的形态来看，想做到这一点很难。一款可被消费者持续购买的产品，交互方式必然很重要。当时由于技术的受限，Virtual Boy很难被携带使用，同时采用单色液晶屏的技术，整个画面都是红色的，像极了惊悚片。

Virtual Boy 游戏《马力欧网球》的模拟器演示画面，实机画面表现与此相比还要差得多

而Virtual Boy的交互设计则以游戏手柄作为参考对象，造型看上去很奇怪，与现在的游戏手柄的设计相比，当时Virtual Boy没有X和Y按钮，有一个更大的握把，右侧还有一个额外的方向键。

由于头戴式会出现让人头晕的偏振现象，任天堂的解决方法是取消头戴式，给头显加个三脚架，让玩家自己的脑袋去适配游戏机，用起来大概是下面所展示的画面。据大多数玩家表示在玩游戏过程中会出现恶心、头晕以及眼睛非常不舒适的感觉。

    虽然Virtual Boy给人带来了三维视觉的体验，但交互方式还是沿袭了游戏交互的设计，与VR设备的结合并不是很协调，这也是VR硬件早期发展过程中所体现出来的一个问题。
    在VR硬件发展的早期阶段，交互方式都很单一，而且设备过重很难携带，同时还容易发热，这一系列的不佳体验都导致90年代的VR设备发展陷入停滞的局面。各大厂商们纷纷偃旗息鼓，坐等技术进一步发展。

     VR交互发展的多种尝试
    2012年左右，随着技术有进一步进展，VR热潮开始重启。
    2012年Oculus创始人帕尔默·拉基发布了Oculus Rift原型机并筹集了240万美元，用于改进头显和跟踪软件。Oculus Rift的到来，让厂商们看到了VR的潜力。2014年，Facebook便以20亿美元收购了Oculus VR。

Oculus创始人帕尔默·拉基

    Oculus Rift本身是一副虚拟现实护目镜，配有耳机，可连接到游戏PC或笔记本电脑，只是Oculus Rift可以通过红外传感器追踪头部运动，并且还可以通过Oculus Touch控制器跟踪有限的手部动作。Oculus Touch控制器具有按钮和模拟摇杆，能够与其他支持PC的游戏控制器兼容。
    通过Oculus Rift，人们惊讶地发现VR设备相比之前已经有了很大的改进，在交互环节上虽然缺失手动跟踪控制器，无法完成复杂的游戏，但是可以满足浏览视频，三维观看的需求，同时期无手柄设计的设备还有谷歌VR盒子、三星Gear。

Oculus Rift

2014年谷歌发布VR盒子——Cardboard，一种廉价的简易头戴式装置，其图像质量并无法与Oculus Rift相媲美，但造价与体验成本很低，用户只需要在手机上下载好软件，并将手机放入Cardboard纸盒即可体验三维视频，降低了普通人踏入VR的门槛。

谷歌VR盒子——Cardboard

2015年三星发布Gear，三星Gear也不能独立工作，仍需要连接手机。设备会自动检测，一旦连上手机，会自动变成VR模式，让屏幕分屏显示VR内容。但三星Gear VR并不只是一个和谷歌纸盒一样的简单的设计，其自带加速计、陀螺仪和重力传感器，能够帮助减少屏幕延时，提供更好的体验。

    同时，虽然三星Gear也无手柄，但三星Gear在眼镜的右侧设有内凹十字的触控板和功能性的按键，所有的使用操作都通过触控板和按键实现。中间的圆点为确认键，触控板上独立设有一颗返回键。
    也就是说在操作环节上，三星Gear又更进了一步，即使不看设备，滑动设备边上的触摸板也可以进行盲操作，而在玩一些游戏时也可连接蓝牙手柄。
    2012年-2016年期间VR设备的交互设计已经逐步转向人性化的设计，虽然这时候VR还不能作为独立的设备使用，VR设备的交互也无法完全满足用户需求，但却激发了人们对VR前景的期待。
    2016年已经有不少硬件厂商推出了自己的VR硬件设备，分别有PC VR头显、VR一体机以及用于生产VR内容的全景相机设备等。
    在交互技术迭代上，2016年之后的设备开始围绕手部与头部的追踪，在3DoF追踪定位的基础上升级到6DoF，增加手柄和头部的追踪意味着用户与VR设备的连接更加自由，体验也会更自然。具有代表性的产品有HTC Vive、 Valve、Quest系列、PICO Neo 3等。

6DoF即6自由度，在3DoF基础上再增加“上下、前后、左右”等3个位置相关的自由度。头部从3DoF只能检测到头部转动姿态到6DoF可以检测伸头缩头等姿态，而且还可以检测身体移动上下前后左右位移的变化。6DoF更加符合人体体验，更具沉浸感。

    尤其是在VR游戏的体验中，复杂的VR游戏往往会需要玩家调动全身互动融入，6DoF可以做到360°的移动身体，如果是3DoF往往只能待在原地，主打观看。
    如今6DoF+手柄追踪方案已经是VR设备的标配，也有部分厂商的设备已升级到裸手识别交互，但识别效果欠佳。各大厂商都在极力在6DoF的基础上不断增强VR交互能力，如360°环绕音效、眼动追踪等。整体来看，目前VR交互技术的成熟度仍有不足，离自然、便捷、拟真的交互体验还有一段距离。

     XR更自然交互方式的到来
    一直以来VR追寻自然交互技术的脚步一直未停，但由于成本与技术之间难以平衡，很多好的交互概念便一直停留在设想环节，因此VR手柄便是目前主流的交互方式。但自苹果发布Vision Pro以来，业内看到了VR设备的创新交互被打开了一个窗口，VR交互方式可以更加接近自然，在VR手柄交互之外增加了诸多自然的辅助交互方式，如语音、手势、面部追踪以及全彩透视，这些交互方式或有望成为未来新的主流交互方式。
    关于Vision Pro的交互解析可查看VR陀螺之前写过一篇分析文章《Vision Pro交互设计，苹果的阳谋》。

语音+手势+面部/眼动追踪，实现可见即可交互

    语音识别在人工智能发展的趋势下不可或缺，并且是最快发展的一种交互方式，如语音识别交互已经从最初的语音搜索发展到智能家居、智能汽车等多领域。
    而在苹果所演示的Vision Pro的应用中，语音交互已经展现了其辅助交互的潜力，通过语音可以唤醒或关闭APP以及发送信息等。在2023CIOE深圳光博会展览上，能看到诸多厂商都展示了增加语音识别技术的整机方案，尤其是在B端，语音识别起到了很大辅助作用。

    今年，自ChatGPT爆发以来，大模型推动自然语言处理等后端环节更加成熟，为语音识别的应用场景提供了诸多可能性，据头豹预计2027年市场规模可突破450亿元。未来，语音识别交互趋势将进一步加强，推动XR交互不断升级。
    VR手柄作为传统游戏手柄交互方式的一种延续，在XR交互过程中很难实现手势动作的连贯性，相当于用户只能通过手柄执行任务，双手自然就被束缚住了。而裸手交互作为有望取代VR手柄的一种交互方式，体验上更加接近人的自然状态。

面部/眼动追踪使用内部摄像头来感知用户眼睛和脸部某些部位的动作，再结合免校准的机器学习模型，头显可以将所看到的内容转化为可以驱动任何化身动画的输入，实现虚拟化身。

    但眼动追踪的实现更难，2022年以来，能看到诸多XR设备都搭载了眼动追踪技术，如PS VR 2、Quest Pro以及PICO 4 Pro，但还是很难达到丝滑的地步。如果说语音+手势+面部/眼动追踪可以将人的身体自然调动，必然会成为人机交互最好的解决方案。
    至于全彩透视虽然可以提供更加丰富的MR体验，但技术难度高。目前还无法做到通过人眼直接看到的真实世界，只能通过机器拍摄现实世界场景，经过系统处理之后投射在显示屏上的画面。只是作为实现MR的重要技术，或会打开基于MR版本的消费场景。据了解，已有内容上嗅到潜力，开始开发MR版本的游戏。

     结语
    2007年，乔纳森·卡普兰和艾瑞 ·布朗斯坦发明了一种简单的便携式摄像机Flip，在美国便携式摄像机市场上掀起了一股狂潮。与此同时，索尼和松下等公司为了抢占市场，忙着向自己的摄像机产品中增加一些高级功能，如添加好莱坞电影式字幕等视频特效。
    但Flip摄像机却赢得了市场，出货直接上升百万台，而当时全美国市场的摄像机销量只有600万台。根本原因就在于Flip的交互设计极为简单，甩开了一切不必要的功能。没有连接线，只有9个键，甚至连软件驱动CD都没有——所有必需的软件都保存在摄像机内，Flip连上电脑就会自动载入。
    虽然如今Flip已经退出历史舞台，但这个故事再度表明了人机的交互方式对于人的选择极为重要。反观XR设备，操作上的不方便一直被诟病，甚至已成为很多人弃用的一大理由之一。

未来XR的交互方式必然要往更加简单的方向发展，以简单的交互方式为重点反向挖掘应用场景，如搭载裸手交互的小游戏，只要游戏内容足够有趣，小游戏则更容易风靡市场；结合语音识别的应用工具，如语言学习、实时翻译等。