Vision Pro交互设计,苹果的阳谋
VR陀螺
文/VR陀螺 元桥
距离苹果发布新品已过半月左右,但库克登场说出的那句话“正如iPhone带我们进入移动计算时代,Apple Vision Pro将带我们进入空间计算时代”,仍让人感到兴奋。
兴奋的不仅仅是我们或将迎来的新时代,更有这款产品的交互设计对当下头戴设备的影响。在Vision Pro发布半个月的时间中,可以看到诸多体验过Vision Pro的博主都对这款产品的交互设计表示甚为惊喜;VR陀螺近期也与诸多业内人士展开深度交流,能感受到大家对于苹果的交互设计也都一致表示震感。
毕竟Vision Pro摆脱了「手柄」外部操控器,用户仅通过眼睛、手、语音便可与设备进行交互,并且眼动、手势与语音之间是打通的,是一整套的交互方式。
毫无疑问,苹果在重新定义MR交互方式的标准,而从每个技术上来看,Vision Pro又是苹果多年来布局的一个体现。
从初代iPhone,看Vision Pro的交互设计
乔布斯是一位为产品设计而疯狂的人,在每一个步骤上,他都会推进删除与简化,小到一颗螺丝钉的布局都要经过几个回合的筛选;由此,苹果一直都以其精湛的硬件与软件的设计、极简的风格而闻名全球。
在设计苹果系列产品时,乔布斯曾说“我们的设计思想就是「极致的简约」,我们管理公司、设计产品、广告宣传的理念就是一句话——让我们做得简单一点,真正的简单。”
2007年第一代iPhone发布,乔布斯在演讲中说道:
“今天我们要推出三款同级别的革命性产品。首先是一台带触控的宽屏iPod,其次是一部革命性的手机,还有一款具有突破性意义的互联网通信设备。所以,是三样东西:一台带触控的宽屏iPod,一部革命性的手机,一款具有突破性意义的互联网通信设备。一台iPod,一部手机,一款网络通信器……你们明白我在说什么吗?这不是三台独立的设备,这是一台设备,我们叫它iPhone”。
苹果为了初代iPhone的到来,研发了2年多的时间。就在乔布斯登台之前,他还召集了其团队,告诉他们要记住那一刻,也就是iPhone问世之前的那一刻。因为,下一刻,一切都会改变。
确实,第一代iPhone的设计,多点触摸功能的屏幕彻底改变了传统手机按键式操作,打开了智能手机世界的大门,并且在后续机型中引入的App Store,让手机成为了真正的移动智能终端,主导了当时的黑莓、摩托罗拉等智能手机。
与第一代iPhone同年发布的黑莓Curve 8310,因为实体键盘挤占了空间,所以屏幕只有2.5英寸
再回看Vision Pro的交互方式就如同iPhone的多点触摸功能设计,摒弃了多余的工具,更加贴近人体的自然习惯,让人类自己成为自然的交互工具,更重要的是Vision Pro让头戴设备充满了「科幻的魅力」。据称,Vision Pro的交互简单到用户只需要1分钟就能适应甚至零成本的学习,界面极度丝滑,窗口就像真实世界中的运动轨迹一样。
视线扫过时的细腻动画效果,图源:苹果
在Vison Pro发布之后,扎克伯格曾对苹果头显发表了自己的看法,他认为「苹果Vision Pro并没有实现Meta未探索技术领域的任何重大突破」。其实不仅扎克伯格这么看,业界几乎也认为Vison Pro并没有带来创新。但能够看出Vision Pro并不重在发明,它的每个点都让人惊喜,亦是一种创新。在技术上来看,Vision Pro几乎颠覆了第三次人机交互的创新,对于人机交互的发展来说,迈出了极大的一步。
《时代》杂志作家格罗斯曼在iPhone发布之后,曾一针见血的指出“iPhone并没有真正发明许多新的功能,而是让这些功能实用很多。这很重要,如果工具不顺手,我们往往会觉得自己太傻;如果工具太糟,我们也会觉得自己很逊;而如果有人改进了工具,我们就会觉得体验很好,自己也很完美。”
格罗斯曼直接从人文的视角解释了为什么苹果的产品能够大受欢迎,头戴设备一直都未被大众所接受,交互环节的「麻烦」便占据了其中一个原因。乔布斯也曾在一次采访中谈到的一个故事,“一个6岁小男孩在未接触过iPad的情况下,仅凭直觉就可以用手指在屏幕上滑动,启动应用程序并玩游戏。”
如果头戴设备的交互能够简单到如此地步,还会很难推进大众市场?相信在两三年之后,将会见证Vision Pro能否成为下一代空间计算平台以及能否打开大众市场。
手眼语三种交互,一套系统,重新定义MR交互范式
其实,苹果每一次新品发布都会伴随交互方式的革新,如Mac的鼠标、iPhone的多触点功能、iPad的Apple Pencil再到如今的Vision Pro的眼球、手势与语音。可以说,正是因为有了每一次的交互革新,使用设备的潜能才真正被挖掘出来。
正如2005年乔布斯对微软一款平板电脑的评论“因为配有一支手写笔,这款产品就废了。”后来微软的平板电脑也确实被苹果颠覆了,不难看出好的交互设计对于用户而言多么重要。
一般人类是通过最基础的五官:眼(视觉)耳(听觉)鼻(嗅觉)舌(味觉)身(触觉)去感知世界。科技企业一直都在不断尝试模拟人类感知世界的五官,从而产生了各种各样的终端产品,只是一直仍未看到一款产品可以真正解决人机交互上存在的缺陷。Vision Pro的到来,极大满足了人们对人机交互的想象。为了能够很好理解Vision Pro的交互设计,以下将从眼动、手势与语音三方面进行拆解。
眼动追踪
眼动追踪一直都是AR/VR产业有待攻破的一大技术难题,近两年在很多新发布的AR/VR设备中已经可以看到,越来越多的产品搭载了眼动追踪技术,但整体体验上并不是很流畅,甚至有的都没有发挥这一技术的能力。
一方面,眼动追踪的交互方式与手柄的配合十分不完美,用户很难真正把手柄和眼动追踪联合起来运用。如果说叠加一项技术但又不能发挥这项技术的能力,那么就会让人觉得这项技术只有酷炫。另一面,眼动追踪对精准度的要求极高,如果技术不能做到及时捕捉眼睛的视线,就会导致定位不准,体验感极差。
眼动追踪技术研究的三大方向是眼球的注视点看向哪里、何时看、看多久,从而去捕捉用户情绪。在AR/VR设备中,眼动追踪的系统包含了近红外光源、高分辨率摄像头、以及图像处理相关的算法,三者缺一不可。
因此,能够真正把眼动追踪发挥好,底层技术很重要。近期陀螺君写了一篇《从Vision Pro一窥眼动追踪交互的巨大潜力》分析了苹果的眼动追踪技术,可点击详阅。
目前,大多数AR/VR设备采用的都是单芯片,在算法与图像处理方面的表现力匮乏。乔布斯就曾评价过英特尔的芯片设计,直指该芯片的图像处理方面太慢,应该有款芯片专门用来处理图像。
多年来,终于在Vision Pro这款产品看到了协处理芯片的设计。Vision Pro搭载M2与R1芯片,其中R1芯片为苹果全新设计,专为头显处理摄像头、传感器的数据传输(包括12个摄像头、5个传感器和6个麦克风的输入)。
据苹果表示:传输速率仅需12毫秒便可将内容同步到Vision Pro的屏幕上,几乎没有延迟,甚至可以达到比眨眼的时间快8倍,对比一下Meta的Quest 3就能够直观的感受到Vision Pro的装置是有多「豪」了。
Vision Pro与Quest3部分参数对比
为了能进一步提升注视点的准确性,苹果还为Vision Pro搭配了精心设计的UI,可以很好的辅助眼球追踪的功能。
从目前Vision Pro的参数与体验者的评价来看,Vision Pro在技术上完全做到了快与准,甚至都未看到有相关视线定位不准或视线抖动的情况。同时,其眼动追踪也做到了非常自然,用户的眼睛注视图标然后双指捏合,即可打开新的应用,眼睛在菜单栏停留一段时间会自动弹出二级菜单.......
眼动追踪虽并非苹果首创,但苹果却是首家将其作为核心交互方式的公司。不可否认,Vision Pro的到来打开了眼动追踪交互的潜力,更创新了眼睛+手势+语音的整套打法。
裸手交互
在AR/VR刚兴起时,业内就几乎确认了裸手交互是未来AR/VR的发展趋势,只是要想做好手势交互的确认度,是一项极大的技术难题。
也正由于技术的受限,裸手交互这一方式就一直都未被完整的发挥出来。手部是我们日常生活中交互信息的一个很重要环节,除了嘴巴之外,手部是最常用的信息输出肢体。
回看PC时代,即便最初会出现各种交互方式,最终都会落到鼠标、键盘,与手部相关的标准交互上。而发展下一代计算产品,手部交互仍很重要。在技术上未有突破的情况下,手柄是VR设备最好的交互方式,相较于裸手交互,手柄的准确度可以达到100%,尤其体现在玩游戏的过程中,所以现在大多数VR设备都采用手柄的交互方式。
此次苹果放弃了手柄这一外部操控器的交互方式,将裸手交互真正发挥了出来,展现了与市场上其他玩家完全不同的策略。也可以说,苹果意图用最便捷的交互方式打开轻度场景的应用,将产品更进一步地推向大众消费市场。
由于Vision Pro配备了四颗用于手势识别的摄像头,可以检测腰部以下的手势,用户还可以把手放在膝盖上进行操作,甚是轻松自如。
使用Vision Pro,双手可以自然搭在双腿上
除此之外,Vision Pro中的摄像头还能够非常精确地追踪眼睛视线,眼睛的位置是一个关键因素,可用于确定你想用手势进行互动的对象。例如,查看应用程序图标或虚拟元素会将其作为目标并高亮显示,然后你可以执行手势;或者想要打开的App,配合手部微小的动作就能完成操作。
还值得一提的是,Vision Pro已经可以实现虚拟键盘打字的方式。据了解,虚拟打字目前在触感上还未达到理想的状态,但苹果内部已经在着手优化了。
苹果实现虚拟键盘输入
在人机交互层面,苹果确实考虑到了用户体验的方方面面,苹果几乎将裸手交互发挥到了目前技术的极致,甚至让交互方式从科幻走入了现实,也让空间计算平台的发展前进了一大步。
智能语音
在ChatGPT未发布之前,人工智能技术的发展已经把语音交互提高到了可用的水平,而在ChatGPT发布之后,智能语音已经成为十分自然的事情了。
在我们日常生活中,智能设备的出现越发普遍,用户对语音的交互也更为熟悉。例如在智能家居中,天猫精灵、小度、苹果的Home再到智能手表与智能座舱,音频的实时交互几乎串联了我们所有生活的场景。
与此同时,淘宝、微信等APP的应用对语音输入的支持,都让智能的语音交互迸发出了旺盛的生命力。而作为下一代计算产品的AR/VR,语音交互必然也会成为其标配。而且实时互动语音技术也能让头戴设备的形态、用户体验产生质的飞跃。
苹果也将智能语音搭载进了头戴设备中,还可配合眼睛与手势进行交互。据称,在Vision Pro中你可以通过语音呼叫Siri,打开和关闭 App或者页面。VR陀螺近期也写了一篇文章,详细分析了Vision Pro中的AI应用,可以点击详阅《深剖Apple Vision Pro中暗藏的“AI”》。
Vision Pro中呼唤Siri
还值得一提的是,为了不使用户和周围的人隔绝,苹果还开发了一个名为Eyesight的反透视功能,这也是Vision Pro的一大基础交互设计。当有人在你附近时,设备看上去会是透明的,即让用户能够看到身边的人;而当你完全沉浸时,屏幕会暗下去,旁边的人也会明白此刻的你注意不到他们。
从目前各个方面信息来看,苹果完全创新了人机交互的方式,定义了头戴设备「眼睛+手势+语音」这一整套的交互标准,更为重要的是苹果将这套交互方式也找到了合理的应用场景,落在办公、视频、家居与观影上等轻度场景上,解决了交互方式与场景结合的难题。
Vision Pro的到来对头戴设备的影响就像初代iPhone的到来对手机市场的颠覆一般,或许并不会有初代iPhone那么受欢迎,但人机交互界面是时候该迎来下一场的发展了。
新一代空间计算产品,苹果正在重构AR/VR
库克将Vision Pro称为下一代空间计算产品,并不是AR/VR,不同于市面上完全追求沉浸感的VR产品,Vision Pro追求的是虚拟与现实的融合,让用户可以在体验沉浸感的同时也不会与外界隔离。
WWDC 2023大会期间,陆川与苹果副总裁展开了一番对话,其中特别令人印象深刻的是苹果副总裁对Vision Pro到来总结的三点,他说:
“第一,我们已经感觉到,一个科技划时代的时刻就要到来了。与其让别人来颠覆我们苹果,不如我们自己来。能颠覆苹果的,只有我们自己。”
“第二,我们感谢过去开发出的所有全系列苹果产品,因为它们挣回的这些钱。我们可以不计成本的去投入开发一个划时代的产品。我们干了六七年,就等今天。”
“第三,也要感谢其他的苹果产品,在这些产品的开发过程中。我们才能积累起足够强大的技术,最后把所有的科技,集成在Vision Pro这一个产品上。”
从他的回答中,能够看出苹果对新一代产品的重视程度,以及也解释了为什么这件事苹果可以做成。第一,苹果足够的有钱,2022年账面现金流就已过千亿;第二,苹果的技术累计足够的强,Vision Pro完全体现了这一点。
VR陀螺曾统计过,苹果从2010年左右就开始陆续收购或投资了多家面部识别、眼动追踪、空间定位、手势识别、动作捕捉等AR/VR相关的企业。
最终这些收购的企业技术都落在了Vision Pro上,例如苹果内部一直都认为头戴设备用控制器操控是个很「恼人的工具」,由此收购的多家面部追踪公司以及多个传感器公司,用多个传感器实时追踪人眼和手势让操作做到了更简单。
可以说是目前为止,Vision Pro是真正一款面向大众消费者的MR产品,你可以用它看电影、工作、娱乐、学习、联系家人/朋友等。
如何打通大众消费者,一直都是AR/VR努力的方向,但无奈多年来,无论是从硬件设计上还是场景应用上,AR/VR都未能吸引大众消费者的兴趣,这也是业内为什么会一直都觉得AR/VR缺杀手级应用的原因。
但使用的不便捷也是让诸多用户避而远之的一大因素,苹果到来或将会真正转变这一点。虽然从目前来看Vision Pro在价格与性能仍还有很多进步的空间,但Vision Pro确实让人感知到空间计算时代正在到来,站在虚拟与现实的融合发展上,Vision Pro标志了一个技术的新开端。
未来,随着苹果MR产品不断迭代,或许将会替代掉电脑、iPad与手机,实现万屏归一。