开发者圆桌论坛：Vision Pro推崇间接手势交互的底层逻辑与深意

2024.07.29 VR陀螺

    文/VR陀螺
    由VR陀螺主办的“Vision Pro系列开发者活动城市系列闭门交流会”已于3月12日在武汉顺利举办。
    本系列活动以各大开发者集中的城市为中心，旨在联合全国优秀开发者共同探索Vision Pro的内容生态发展，探讨新平台的发展趋势和潜在机遇。现场提供Vision Pro实机的试玩体验，闭门沙龙的形式让整个活动氛围轻松自然，促进到场的开发者之间展开深度交流。
    活动不仅面向XR内容团队，也面向移动端、PC和游戏主机等传统平台的内容开发者，以便从不同角度来审视和讨论这台“空间计算”设备。现场演讲有资深开发者分享visionOS的开发经验，还有嘉宾带来关于App Store平台发展、Vision Pro原生内容生态方面的深度分析。
    武汉站的圆桌论坛请到铃空游戏TA 高颖俊、武汉艺术先生数码科技有限公司创始人李颂华、上海不加班网络科技有限公司创始人邸锐（游戏开发极客），围绕“Vision Pro与传统VR产品相比的核心差异点”“哪些场景有机会在该平台产生爆款”“开发Vision Pro应用的过程中遇到的问题”“AI与哪些场景结合会更有机会”等问题展开了深度探讨。
    以下为圆桌论坛实录：

    左起依次为：案山子、高颖俊、李颂华、邸锐（图源：VR陀螺）
    案山子：首先有请各位做一个简单的自我介绍。
    高颖俊：大家好，我是铃空游戏的技术美术。我们主要开发主机和PC游戏，早前制作过一款VR游戏《临终:重生试炼》，现在正在开发《昭和米国物语》。
    李颂华：大家好，我是武汉艺术先生的。我们公司主要是做一些B端的应用，包括虚拟仿真和培训，涵盖AR和VR。另外我们也做了一款结合VR来互动的椅子。
    邸锐：我在b站的ID叫“游戏开发极客”，算是一个教Apple Vision Pro开发的网红。实际上我也是做了七年半AR头戴式设备内容开发的创业者，之前是做HoloLens，主要是toB的外包项目。
    案山子：相信大家应该都体验过VR设备，现场也有Vision Pro。所以想请各位聊一聊，从您切身的体验来看，这两个平台的核心差异点在哪里？以及Vision Pro的局限性在哪里？
    高颖俊：我接触VR眼镜还算是比较早的，苹果Vision Pro目前给我的感觉算是往前跨过了一道坎。它对现实的入侵感较少，我们可以在这个平台上“用最自然的语言去交互”。
    当然，要说它的限制我觉得可能有点多，我个人是比较偏向保守派。我能感觉到有很多开发者第一眼就被Vision Pro上的内容或者概念所吸引了，我自己也是那批人。但就像大家所提到一样，作为直接用户，可能在短期内没有办法100%地体会到Vision Pro最精髓的好处。目前这款设备推出来，第一步就是需要打动我们这些人，然后让大家想在上面去做自己的内容沉淀。我们对未来Vision Pro的使用环境还是挺期待的。
    至于顾虑点，就我个人的体验，目前这款设备的性能其实是有限的。当然Vision Pro的硬件性能很强，但是它也消耗了绝大多数的性能在虚实融合上面，所以留给开发者的空间其实不够，当然硬件是可以随着时间推进来迭代上去的。还有一点我比较担心的就是长时间佩戴，可能没办法像大家想象的那样在短时间内有很大的突破。
    李颂华：我们公司做VR和AR开发也很多年了，从最开始2016、2017年做VR游戏，然后慢慢转型，专注于做B端的VR虚拟仿真培训，还有一些严重事故的模拟，像HTC、PICO、还有HoloLens的设备都用过。之前VR产品的清晰度还比较低，也会有一定的眩晕感。
    苹果Vision Pro我刚才是第一次体验，感觉它的清晰度提升还是非常明显的，环境的沉浸感相比之前有很大提升。这对于我们做项目来说，我相信Vision Pro的效果可以做到更加逼真，给培训人员体验更加真实的场景环境。空间计算方面，它可以提供更多的交互，包括让多人在同一个场景中共同去做设备的维修、检查以及操作培训，我觉得也是挺不错的。
    但对于Vision Pro第一代产品的重量，我们也是有所顾虑的。因为一般培训的时长会比较久，往往要半个小时到一个小时。Vision Pro的重量集中在面部，长时间使用的话，佩戴感还是比较明显的。我们肯定希望苹果后面的产品在轻量化、易戴性方面能够改进，所以前期我们也只是研究一下开发环境，尝试做一些适配的内容。
    邸锐：从开发者、使用者的角度上看Vision Pro应该是不同的。我身边的人如果要买的话，我还是劝他三思而后行，因为这个产品的性价比确实不高，3万多元对谁也不是个小数目。
    但是作为一个开发者，为什么我全力投入进去呢？因为我相信苹果公司的这个技术方向它能坚持下去。现存的这些问题，比如价钱贵、算力不足，要看这些能否得到解决，如果在三五年内能解决的话，我觉得就值得开发者进行投入。因为我们真正赚钱可能是Vision Pro二代、三代、四代。一代产品我们可能会很辛苦，但是作为创业者来说肯定是要赌一下。虽然我们公司现在不赚钱，但是我们觉得，Vision Pro推出二代、三代之后，量如果上去了，那它是不是就能复制一个小的iPhone生态呢？我认为苹果是有这个潜力的。
    我觉得现在买Vision Pro的人，大部分人是把它当成潮品，而不是电子产品。因为Vision Pro作为电子产品从性价比的角度来说确实不高，但是佩戴起来很酷。如果跟LV包、莱卡相机相比，它的性价比又显现出来了。
    重要的是苹果的号召力，可以让Vision Pro卖出十几二十万台。等到出下一代产品时，如果苹果的号召力还存在，并且它还继续坚持这个方向的话，对于我们这些想要投入这个领域的创业者和从业人员，就是一个机会。比如一些学生，现在开始学习Vision Pro的开发，等到真正工作的时候，可能已经是二代、三代产品，那个时候设备普及了，你又是最早接触这款设备的开发者，那就是你的优势。Vision Pro在这一代能不能赚钱，那是库克愁的事，不是我们要愁的事。

    图源：苹果
    案山子：各位觉得在这种手眼协同的交互模式下，什么样的场景更适合这款设备？以及哪些场景真正能够有机会产生爆款？
    高颖俊：如果单就交互方面来说，我能想到更多的是信息浏览和3D内容的应用场景。我觉得一个设备，如果能让某些特殊的应用发挥到极致，或者让它的体验大幅提升的话，那就是很有意义的，哪怕目前设备的保有量不是很大。
    另外像一些对实时交互性要求不是特别高的游戏，比如恋爱类、文字类，本来就是在一个沉浸的环境中，谁不喜欢眼前展示出一个美女帅哥呢？以前可能是在手机、平板上的纸片人，这种距离感跟Vision Pro的沉浸感是完全不一样的。因为这款设备比较适合信息展示，所以类似于策略型游戏、和电子沙盘有关的战略型内容，也很合适。比如我们可以与沙盘上的内容互动，而且战场上的内容能直接回馈到眼镜中。这类体验场景，也是非常有机会的。
    除了游戏以外，我认为还有一种场景。这类私有化产品的持有者可能会特别需要将自己置身于一个独立的环境中，然后理清自己的思绪，做类似思维导图。有了Vision Pro的帮助，它会随着我的思路去做笔记，展示我正在构思的内容，甚至再结合一些AI功能，体验就会提升得特别明显。
    李颂华：我们之前用HoloLens产品做过一些培训类、设备检修类的项目，它的可视角度其实是很有限的，所以从三维环境的再现角度有一些局限性。现在Vision Pro上市，应该可以用来做升级和换代，之前那些设备操作和培训项目可以做成多人互动的方式来实现。
    在学习、医疗方面其实也都有一些应用，包括现在我们也在做心理健康的培训项目，它可以结合算法，给参与培训的人提供建议或帮助。之前是看视频，现在用Vision Pro就能在一个完全沉浸式的场景中去体验环境，让用户得到心理上的放松。
    邸锐：我把Vision Pro拿回去之后，让我老婆戴。她刚开始不愿意戴，说这东西压苹果肌压得太严重了，会让她显老。后来我给她看了Apple TV的视频、演唱会之后，她就忽然觉得这个产品很好。所以Vision Pro的第一个需求可能还是基于互动视频类，但这个方向有抖音等专门的大厂会去做。
     我也是做游戏的，所以就从游戏角度来考虑。Vision Pro分为两种模式，一种是全沉浸模式，还有一种是共享空间模式。我反而觉得第二种模式有一定的机会，因为它给用户的压力比较小，开了一个App后还可以再打开其他程序，并不是独占性的。但是它也有限制，只能用“空间鼠标”式操作，比如Vision Pro上的《What the Golf?》就通过各种变化把游戏做得很有趣。我们都知道常规的付费点有养成、收集、PK……如果在Vision Pro里做一个虚拟宠物游戏，主打养成、收集，等量起来之后，就可以做付费。像前面提到的沙盘类游戏，或者《宠物小精灵》，都很合适。
    前几天我同事忽然脑子一热，问我“Vision Pro怎么做摇杆？”我说只要用手捏就可以，不用做摇杆。因为他是00后，从出生后就用手机在玩游戏，没玩过我们80、90后小时候玩的那些泥巴游戏，我们现在的一个研发方向是多人游戏，虽然目前设备不多，但可以把iPhone、iPad加进来，只要加入多人互动，相信游戏的引流量、竞技性就会立刻上来。像“打地鼠”，如果两个人玩就更好玩了，因为可以拍对方的手。我觉得以后会有一种形态，就像我们小时候玩的“扇叽”、扑克一样，面对面地去玩，做到返璞归真。这种类型的游戏，可能相对于手游是更适合Vision Pro这个平台的方向。

    Vision Pro版《What the Golf?》（图源：Triband）
    案山子：Vision Pro支持直接和间接两套交互模式，但目前这个平台上的大部分游戏都只使用了间接交互。甚至像棋类、麻将、乐高积木等，都是间接交互。您认为这是什么原因？
    邸锐：这应该是出于隐私安全的考虑。在共享空间模式，Vision Pro所有的头部动作和输入动作都是不开放的。如果开放就会存在一个问题，比如在玩游戏的时候，时时刻刻有另外一个App在监控你。现在我们手机上的一些行为，比如买了什么东西就会被监测到。如果戴着Vision Pro，你的动作或者家里的摆设被监控到，那就非常可怕了。
    所以苹果做得非常严格，在共享空间里所有的AR功能都会禁掉，如果是沉浸空间，每个功能都要用户确认才能使用，而且就算确认了，也只能有之前ARKit功能的50%。网上有一个很好玩的视频，把老公换脸。这在Vision Pro里是做不了的，因为面部捕捉被苹果禁掉了，ARKit在手机上可以做，但是到了Vision Pro上就不行。我的理解是只要开放捕捉的话就可以采集你家里的数据，这就很危险。所以苹果是为了以后的长远发展才会禁掉很多东西。
    案山子：那在这种间接手势下，会不会对内容造成一些局限性呢？
     邸锐：我喜欢用古诗的韵律来类比。韵律就是个限制，在韵律下写诗，不会错太多，至少好听。苹果把那些很危险的东西禁掉，肯定是会对内容开发有限制的，但这样不会犯大错。我觉得开发者要给自己一个限制，为了这个行业更好的发展，要让自己适应这种规则，要妥协一些东西。所以我觉得苹果虽然给了我们一个限制框架，但这是对整个行业有利的，必须要这么做的。
    苹果定义“空间计算”，从软件开发的角度，如果你顺着它的思路做其实很简单，但你只要按照以往自己的思路去做，就会觉得到处都是陷阱。我们公司后面几个Vision Pro游戏都不是我做的，是00后的小兄弟在做，当然我们的游戏也不是很复杂，他们现在花半个月左右时间就可以做一款小游戏出来。所以我觉得Vision Pro开发如果顺着它的思路下来，难度并不大，但就是要把之前那些习惯全都改成按照苹果的思路去做才行。
    案山子：在为Vision Pro开发应用的过程中，您有遇到哪些问题是比较难解决的？
    邸锐：Vision Pro所有底层都要交叉编译，有些源代码可能上不来，所以内容移植到这个平台时，要把之前所有渲染的底层都要过一遍。我们从过年到现在一个月的时间，就是在查之前用的那些东西能不能沿用过来。
    苹果是完全不把摄像头信息给任何第三方程序的，对于隐私保护比我们想象的要严格得多，现在所有App都拿不到Vision Pro的摄像头信息，包括像Unity这么大的合作伙伴也拿不到。我们用Unity开发只能拿到ARKit给到的信息，比如图片追踪，它只会给你坐标，但我们不知道图片的内容，所以像二维码识别现在就解决不了。

    图源：苹果
    高颖俊：我有一个问题。刚才也说到Vision Pro的设备量还比较少，苹果肯定是要走精英式的设备和精英式的生态。如果初期阶段都是一些轻量的应用，或是基于空间的小型交互类应用的话，Vision Pro本身又算是一个重型的设备，那么对于一些轻型的AR眼镜，反而在这个领域可能会有不错的表现。您会不会建议开发者同时也去考虑那些轻型的AR设备？
    那些AR眼镜不需要实时计算周围所有内容的深度，因为本身镜片就是透明的，所以避免了重构这个步骤。它们也能通过双目深度去精确计算，获得高质量的图片信息、甚至是3D信息。这些产品更便宜、也更轻便，可以佩戴更长时间，除了追踪不是那么精准以外。如果只是一个在固定范围内的小型内容，我感觉苹果的生态圈对于这类应用来说好像也没有太大的优势？
    邸锐：我们做AR的都认为OST是未来，但是这些产品有一个问题。他们每家做的生态平台都不兼容，市场也都是单一市场，并不是大的领域。我们以前也和一些厂商合作过，但做着做着它就破产了，导致后来我就很害怕。我认为苹果有实力开发一个最大的市场空间，而且有实力做两三代产品下去。国产AR产品当然也在越来越好，我希望未来能有一个国产品牌或是一家大厂做到统一大市场，那就可以进来了。今后Meta Quest如果再往MR的路线上出一代产品，我们也会考虑把Vision Pro的内容反向移植到Quest的生态上。
    案山子：从去年所谓的“AI元年”开始，到今年Sora这一类大模型出来，AI好像也发生了一个质的变化。所以想请大家来聊一聊，有哪些场景结合AI会比较有机会？
    高颖俊：我是持技术派、保守派态度的一个人。虽然大家对待AI都特别火热，但实际运用到应用或游戏开发的话，我们还是把AI定位成创作辅助工具，不会让它直接去完成生产，而是让它辅助或是帮助很多步骤。
    我对大模型其实不是那么感兴趣，它在发展当然是很好的一件事情，但我个人更关注的是专业模型上的训练。比如现在已经有很多面部生成，如果未来哪一天能够自动Retarget，就是从一个角色生成另外一个完全不相干的，甚至是动画之间的匹配和转型完全不出错，不再需要用户人为去指导和干涉，这种特别专业的应用反而是更有意义的。
    具体应用在Vision Pro，比如玩跑团类的游戏需要一个讲述者，他一边讲、场景就在旁边生成，我认为这就能让体验飙升。本身AI的工作原理和这个也很契合，描述得越多、越仔细，内容就渐渐地具现出来了，大家的互动参与感也会得到提高。虽然这个场景比较硬核，面向的人群不是那么多，不过一旦你的基因和它对上了，体验就会一下子得到提升。另外有一些专业向的应用，比如我在现实中看到一幅画或是一个小物体，可以让AI通过训练库里的数据，结合面前捕捉到的内容来生成故事。无论是故事演绎，或是虚拟陪伴，这种场景就会变得非常生动。
    李颂华：我本身也是美术出身，从去年的Midjourneymajority、Stable Diffusion，包括现在新出的Sora，都一直有在关注和研究。我们在产品的宣传海报、宣传页有运用到AI来做一些工作。包括视频方面，如果今年AI有新的发展的话，我们也会用它来做一些宣传片或是视频剪辑类的工作。三维建模方向的AI目前还没能达到实际产品级的应用，但是这个方向今后的发展我相信会是很快的，通过扫描或是比较新的方式来实现真实场景和物体的三维建模，相信离我们已经不太远了。
    如果把AI应用在Vision Pro里，我觉得有一个比较合适的方向是私人助理。比如在家里做饭的时候，AI可以告诉你这道菜怎么做；在健身场景，它可以指导瑜伽和健身操等运动；在工作场景，AI可以帮忙做会议纪要和一些流程处理；在培训、维修场景，AI能以教员的身份，一步步地指导学员去学习维修和操作互动。
    邸锐：因为我们团队全都是程序员，以前美术资产和音乐资产都需要找外包。现在我们游戏里的图标都是AI跑出来的，10秒一个，然后我们再从中筛选出合适的。对于我们这种小的创业团队来说，AI能提升我们的价值，能让我们这种不算完整的小团队做成一件比较完整的事。所以AI对于小公司的意义和大公司正相反，我们的生产力本来就不足，AI正好是一个补充。
    如果把AI应用到具体的比如游戏NPC、数字人等场景，它存在一个问题是“可不可控”。我们这些做游戏的人，都认为游戏体验应该是很精准的，过程要有高潮、有低谷。如果不可控，就会导致每个人的体验是不同的。我觉得至少现在对于游戏开发者来说还是很难的，可能是我们的游戏设计能力还没有跟上AI的进化。未来可能会结合得很好，但现在我确实还没有找到一个特别好的方法去把AI和游戏做融合。

    Vision Pro已经上线的AI工具之一《Adobe's Firefly》。（图源：Adobe）
    案山子：好的，今天的圆桌论坛到此结束，非常感谢各位到现场来参加我们的开发者沙龙活动。