苹果Vision Pro催熟XR交互
VR陀螺
文/VR陀螺 元桥
为了让XR设备的控制器更加贴近自然,业内做过很多种尝试,像Meta前几年曾公布的触觉手套,索尼近期公布的游戏手套,还有绑在手腕上的控制器,外挂气味套件等等。
只是由于大多数交互方式的尝试很难落地,搞了好几年仍是概念产品。目前,XR交互仍以头部和手部的6DoF追踪定位为主,未来XR的交互的重点仍将以手部以及头部为主,只是围绕的中心正在发生变化。
2023年6月,苹果发布其初代MR头显,摒弃了手柄,采用了以语音+手势+面部/眼睛追踪为主的更加自然的交互方式。为了更好理解XR交互方式的迭代,本文梳理了XR交互方式的迭代变化过程与趋势。
VR交互发展的第一次冲锋
1995年,任天堂发布了一款早期VR概念的便携式游戏机Virtual Boy,也算是VR交互发展的首次冲锋,当时各大媒体的报道都给予了这款产品很高的评价。
山内溥更是在1995年Q1的股东大会上欣然允诺:“Virtual Boy将在发售的第一财年里出货500万台,为任天堂带来800亿日元的利润。”然而Virtual Boy发售不到半年就迅速走向了「死亡」,评价也是一落千丈。
任天堂自然是希望Virtual Boy能成为它弯道超车的机会,一举抢占新赛道。但从Virtual Boy的形态来看,想做到这一点很难。一款可被消费者持续购买的产品,交互方式必然很重要。当时由于技术的受限,Virtual Boy很难被携带使用,同时采用单色液晶屏的技术,整个画面都是红色的,像极了惊悚片。
Virtual Boy 游戏《马力欧网球》的模拟器演示画面,实机画面表现与此相比还要差得多
而Virtual Boy的交互设计则以游戏手柄作为参考对象,造型看上去很奇怪,与现在的游戏手柄的设计相比,当时Virtual Boy没有X和Y按钮,有一个更大的握把,右侧还有一个额外的方向键。
由于头戴式会出现让人头晕的偏振现象,任天堂的解决方法是取消头戴式,给头显加个三脚架,让玩家自己的脑袋去适配游戏机,用起来大概是下面所展示的画面。据大多数玩家表示在玩游戏过程中会出现恶心、头晕以及眼睛非常不舒适的感觉。
虽然Virtual Boy给人带来了三维视觉的体验,但交互方式还是沿袭了游戏交互的设计,与VR设备的结合并不是很协调,这也是VR硬件早期发展过程中所体现出来的一个问题。
在VR硬件发展的早期阶段,交互方式都很单一,而且设备过重很难携带,同时还容易发热,这一系列的不佳体验都导致90年代的VR设备发展陷入停滞的局面。各大厂商们纷纷偃旗息鼓,坐等技术进一步发展。
VR交互发展的多种尝试
2012年左右,随着技术有进一步进展,VR热潮开始重启。
2012年Oculus创始人帕尔默·拉基发布了Oculus Rift原型机并筹集了240万美元,用于改进头显和跟踪软件。Oculus Rift的到来,让厂商们看到了VR的潜力。2014年,Facebook便以20亿美元收购了Oculus VR。
Oculus创始人帕尔默·拉基
Oculus Rift本身是一副虚拟现实护目镜,配有耳机,可连接到游戏PC或笔记本电脑,只是Oculus Rift可以通过红外传感器追踪头部运动,并且还可以通过Oculus Touch控制器跟踪有限的手部动作。Oculus Touch控制器具有按钮和模拟摇杆,能够与其他支持PC的游戏控制器兼容。
通过Oculus Rift,人们惊讶地发现VR设备相比之前已经有了很大的改进,在交互环节上虽然缺失手动跟踪控制器,无法完成复杂的游戏,但是可以满足浏览视频,三维观看的需求,同时期无手柄设计的设备还有谷歌VR盒子、三星Gear。
Oculus Rift
2014年谷歌发布VR盒子——Cardboard,一种廉价的简易头戴式装置,其图像质量并无法与Oculus Rift相媲美,但造价与体验成本很低,用户只需要在手机上下载好软件,并将手机放入Cardboard纸盒即可体验三维视频,降低了普通人踏入VR的门槛。
谷歌VR盒子——Cardboard
2015年三星发布Gear,三星Gear也不能独立工作,仍需要连接手机。设备会自动检测,一旦连上手机,会自动变成VR模式,让屏幕分屏显示VR内容。但三星Gear VR并不只是一个和谷歌纸盒一样的简单的设计,其自带加速计、陀螺仪和重力传感器,能够帮助减少屏幕延时,提供更好的体验。
同时,虽然三星Gear也无手柄,但三星Gear在眼镜的右侧设有内凹十字的触控板和功能性的按键,所有的使用操作都通过触控板和按键实现。中间的圆点为确认键,触控板上独立设有一颗返回键。
也就是说在操作环节上,三星Gear又更进了一步,即使不看设备,滑动设备边上的触摸板也可以进行盲操作,而在玩一些游戏时也可连接蓝牙手柄。
2012年-2016年期间VR设备的交互设计已经逐步转向人性化的设计,虽然这时候VR还不能作为独立的设备使用,VR设备的交互也无法完全满足用户需求,但却激发了人们对VR前景的期待。
2016年已经有不少硬件厂商推出了自己的VR硬件设备,分别有PC VR头显、VR一体机以及用于生产VR内容的全景相机设备等。
在交互技术迭代上,2016年之后的设备开始围绕手部与头部的追踪,在3DoF追踪定位的基础上升级到6DoF,增加手柄和头部的追踪意味着用户与VR设备的连接更加自由,体验也会更自然。具有代表性的产品有HTC Vive、 Valve、Quest系列、PICO Neo 3等。
6DoF即6自由度,在3DoF基础上再增加“上下、前后、左右”等3个位置相关的自由度。头部从3DoF只能检测到头部转动姿态到6DoF可以检测伸头缩头等姿态,而且还可以检测身体移动上下前后左右位移的变化。6DoF更加符合人体体验,更具沉浸感。
尤其是在VR游戏的体验中,复杂的VR游戏往往会需要玩家调动全身互动融入,6DoF可以做到360°的移动身体,如果是3DoF往往只能待在原地,主打观看。
如今6DoF+手柄追踪方案已经是VR设备的标配,也有部分厂商的设备已升级到裸手识别交互,但识别效果欠佳。各大厂商都在极力在6DoF的基础上不断增强VR交互能力,如360°环绕音效、眼动追踪等。整体来看,目前VR交互技术的成熟度仍有不足,离自然、便捷、拟真的交互体验还有一段距离。
XR更自然交互方式的到来
一直以来VR追寻自然交互技术的脚步一直未停,但由于成本与技术之间难以平衡,很多好的交互概念便一直停留在设想环节,因此VR手柄便是目前主流的交互方式。但自苹果发布Vision Pro以来,业内看到了VR设备的创新交互被打开了一个窗口,VR交互方式可以更加接近自然,在VR手柄交互之外增加了诸多自然的辅助交互方式,如语音、手势、面部追踪以及全彩透视,这些交互方式或有望成为未来新的主流交互方式。
关于Vision Pro的交互解析可查看VR陀螺之前写过一篇分析文章《Vision Pro交互设计,苹果的阳谋》。
语音+手势+面部/眼动追踪,实现可见即可交互
语音识别在人工智能发展的趋势下不可或缺,并且是最快发展的一种交互方式,如语音识别交互已经从最初的语音搜索发展到智能家居、智能汽车等多领域。
而在苹果所演示的Vision Pro的应用中,语音交互已经展现了其辅助交互的潜力,通过语音可以唤醒或关闭APP以及发送信息等。在2023CIOE深圳光博会展览上,能看到诸多厂商都展示了增加语音识别技术的整机方案,尤其是在B端,语音识别起到了很大辅助作用。
今年,自ChatGPT爆发以来,大模型推动自然语言处理等后端环节更加成熟,为语音识别的应用场景提供了诸多可能性,据头豹预计2027年市场规模可突破450亿元。未来,语音识别交互趋势将进一步加强,推动XR交互不断升级。
VR手柄作为传统游戏手柄交互方式的一种延续,在XR交互过程中很难实现手势动作的连贯性,相当于用户只能通过手柄执行任务,双手自然就被束缚住了。而裸手交互作为有望取代VR手柄的一种交互方式,体验上更加接近人的自然状态。
面部/眼动追踪使用内部摄像头来感知用户眼睛和脸部某些部位的动作,再结合免校准的机器学习模型,头显可以将所看到的内容转化为可以驱动任何化身动画的输入,实现虚拟化身。
但眼动追踪的实现更难,2022年以来,能看到诸多XR设备都搭载了眼动追踪技术,如PS VR 2、Quest Pro以及PICO 4 Pro,但还是很难达到丝滑的地步。如果说语音+手势+面部/眼动追踪可以将人的身体自然调动,必然会成为人机交互最好的解决方案。
至于全彩透视虽然可以提供更加丰富的MR体验,但技术难度高。目前还无法做到通过人眼直接看到的真实世界,只能通过机器拍摄现实世界场景,经过系统处理之后投射在显示屏上的画面。只是作为实现MR的重要技术,或会打开基于MR版本的消费场景。据了解,已有内容上嗅到潜力,开始开发MR版本的游戏。
结语
2007年,乔纳森·卡普兰和艾瑞 ·布朗斯坦发明了一种简单的便携式摄像机Flip,在美国便携式摄像机市场上掀起了一股狂潮。与此同时,索尼和松下等公司为了抢占市场,忙着向自己的摄像机产品中增加一些高级功能,如添加好莱坞电影式字幕等视频特效。
但Flip摄像机却赢得了市场,出货直接上升百万台,而当时全美国市场的摄像机销量只有600万台。根本原因就在于Flip的交互设计极为简单,甩开了一切不必要的功能。没有连接线,只有9个键,甚至连软件驱动CD都没有——所有必需的软件都保存在摄像机内,Flip连上电脑就会自动载入。
虽然如今Flip已经退出历史舞台,但这个故事再度表明了人机的交互方式对于人的选择极为重要。反观XR设备,操作上的不方便一直被诟病,甚至已成为很多人弃用的一大理由之一。
未来XR的交互方式必然要往更加简单的方向发展,以简单的交互方式为重点反向挖掘应用场景,如搭载裸手交互的小游戏,只要游戏内容足够有趣,小游戏则更容易风靡市场;结合语音识别的应用工具,如语言学习、实时翻译等。