空间计算的终局之争:Meta的最新答案是AI+AR

雷科技

AI如何改变AR眼镜?
    日前,在Reality Labs 成立 10周年之际,Meta 发布了一篇博客文章,并在末尾预告将推出有史以来的第一副 AR 眼镜,这款产品会将现有的两个空间计算的产品线(Quest 3 和雷朋 Meta 智能眼镜)整合起来,形成AI+AR眼镜的新形态产品。原文链接在此:https://about.fb.com/news/2024/04/celebrating-10-years-of-reality-labs/ 。
    
    其实在苹果 Vision Pro 发布之后,下一代通用计算平台之争就有了新的变化,如果说原来是 VR/元宇宙与 AR 之争,那现在就是 MR 和 AR 之争。
    前者通过采用 VST(视觉透视)方案实现了对 VR 和 AR 的兼顾,走的是先构建空间体验和生态,再寻求佩戴的轻量化;后者则是坚持 OST(光学透视)方案,走的是先确保日常佩戴体验,再寻求更好的空间体验和生态。
    前者最好的代表当然还是 Vision Pro,后者的代表是一众国产轻量化 AR 眼镜。现在,Meta 相信,随着 AI 技术革命性突破的到来,AI 加持下的 AR 眼镜才是「天选之子(The Chosen One)」。
    Meta 的 AR 眼镜之路:先做好眼镜本身
    在严格意义上,Meta 的第一款真正意义上的 AR 眼镜其实还没亮相。
    去年底,Meta CTO Andrew Bosworth 透露过这款代号「Orion」的 AR 眼镜将于 2024 年亮相。到了今年初,更有媒体 Bussiness Insider 援引知情人士称,Meta 将于今年 Connect 大会上展示一副「真正的」AR 眼镜。
    这也会是 Meta 的第三代智能眼镜。
    2021 年 9 月,Meta 和知名眼镜品牌雷朋联名发布第一代智能眼镜;两年后的 2023 年 10 月,Meta 又和雷朋联名发布了第二代智能眼镜。
    
    第二代雷朋联名智能眼镜,图/ Meta
    纵观 Meta 的两代智能眼镜,首先都是正常的时尚眼镜,其次才是智能眼镜。这是所有 AR 眼镜都没有做到的,过宽的镜腿、仍旧稍重的佩戴以及有线连接的方式,始终让这些 AR 眼镜离出街、日常使用还有不小距离。
    第一代虽然销量惨淡,但到了第二代,Meta 大幅提升拾音质量和视频拍摄质量,支持了 Instagram、Facebook 等平台的第一人称视角直播,还引入 Meta AI ,通过语音指令支持绝大部分功能操作的实现。
    
    图/ Meta
    随之而来的是,Meta 第二代智能眼镜的热度和销量都远超预期。
    去年底,雷科技在 YouTube、X 等平台上就经常能看到相关的评测和体验,同时根据 Meta 在财报会上的透露,二代智能眼镜去年第四季度发货量已经超过 30 万副。为此,镜片生产商依视路陆逊梯卡(雷朋母公司)已经在寻求扩大生产。
    而在引入 AI 之后,Meta 下一代智能眼镜的计划就是延续「先眼镜」的策略,在新增支持 AR 显示功能的同时,重点还是结合 Meta 最新的 AI 技术。
    在产品正式发售之前,我们很难知道 Meta 的第三代智能眼镜在 AR 方面会有多「真」,不过至少可以确定,尽管同时走了 MR 头显和 AR 眼镜两条路线,但在 AI 革命如火如荼的今天:
    比起当下的「销量支柱」Quest,Meta 更看重的还是 AI 加持下的 AR 眼镜。
    MR 不会消失,但 AI+AR 才是终局?
    「随着这两种技术路径的融合,AR 眼镜将达到两全其美的效果。」一周前,Meta Reality Labs(现实实验室)在庆祝成立十周年的那篇文章中写道。
    Quest 3 的 MR 体验可以让用户同时沉浸在物理世界和数字内容的协同交互之中,雷朋联名 Meta 智能眼镜则能让用户享受到 Meta AI 的实用性与娱乐性,但 Meta 认为,在 AI 技术实现革命性突破之后,真正的 AR 眼镜将融合两种技术路径,实现「两全其美」的体验。
    


    「就像智能手机并没有淘汰笔记本电脑或台式电脑一样,AR 眼镜也不会成为混合现实耳机的终结。相反,我们看到的是构成未来结构的一系列设备。我们相信,我们现在拥有的智能眼镜,在全面 AR 眼镜化的道路上,将具有更广泛的吸引力。
    

    
    Meta 眼镜的 AR 化,图/ Meta
    Meta 当然不至于无的放矢,AI 技术如今的革命性突破,绝不只是在自然语言方面有了突飞猛进的进步,还包括在声音、动态图像等方面的理解。尤其是 AR 的核心就是空间视觉,不同于过往,今天的 AI 真正开始了认识和理解周围的环境。
    认识世界是改造世界的基础。AR 的本质是基于物理世界融合数字内容,这也意味着除了 SLAM 空间定位技术,很重要的一点是同时理解物理世界和数字内容,以及两者之间的联系,才能帮助用户享受到「增强现实(AR)」的体验。
    除此之外,AI 算力的增长速度也远远超出了通用算力的增长速度,远不只是每两年翻一番的规模,而 AI 在人机交互层面还有大量的潜力可以挖掘,能够以更高的效率、更好的交互形态将 AR 体验呈现在人们的「眼前」。
    这是谷歌、Meta、苹果以及一众 XR 公司过去没有想到的一种可能。
    12 年前,当谷歌创始人谢尔盖·布林戴着谷歌眼镜从高空上一跃而下,并将画面传回 Google I/O 2012 大会现场。
    
    Google I/O 大会现场,图/谷歌
    但包括他在内,谷歌乃至整个业界,可能考虑到了 AR 眼镜在隐私、处理器能效等方面的挑战,却很难能想到,一年前成立的「谷歌大脑」(谷歌深度学习部门)其实才是 AR 眼镜的关键。
    国产厂商加码, AI+AR 成新版本的「答案」
    首先需要说明,AI 技术在 AR 领域应用,早已有之,但就算再重视 AI 的 AR 公司,在最新一轮的生产式 AI 革命之后,也都要重新思考 AI 之于 AR 的价值和意义,重新梳理和设计 AI 在 AR 眼镜中应用。
    而不只是手握 Llama 大模型的 Meta 意识到了这一点,包括 Rokid、雷鸟创新、李未可科技以及致敬未来等国内厂商也意识到了 AI+AR 才是「版本答案」。
    当然,就技术讲技术是没有任何意义的。做智能音箱出身的 Rokid,甚至早几年就笃定了 AI+AR 的大方向,包括在 Rokid AR Studio 上采用单目摄像头、依靠 AI 生成深度信息也是基于这个方向的一种「落地」。
    
    单目方案,图/ Rokid
    包括 Rokid、雷鸟创新、李未可科技和致敬未来,还都提到了 AI 在帮助用户分析和理解环境信息上的巨大潜力。就像乔布斯在个人电脑早期将其比作为「大脑的自行车」,AR 眼镜其实在某种程度上更加接近这个比喻。
    吴德周创建的致敬未来,就在 ARknovv A1 上推出了名为「精灵球」智慧助手功能,通过整合语音和图像两类 AI 识别能力,让设备能够听到用户意图、感知眼前画面,来提供 AR 相册、AR 导航以及现实大爆炸等功能。
    
    图/ ARknovv
    诚然,「精灵球」也好,其他 AI 应用也罢,现在都还存在大量需要改进和重新设计的地方,但无疑在朝着正确的方向前进。
    而在今天,别看 AR 眼镜厂商都在大谈特谈 AI,但实际大部分厂商都是浅尝辄止。很多厂商只是在眼镜上接入了一个云端的 GPT,再将文字输入输出改为语音输入输出,并没有将 AI 的能力深入底层,在应用、内容和场景体验上带来根本的改变。
    这是现状,也是挑战,更是机遇。