Facebook最新黑科技：在虚拟世界中复刻一个“真实”的你

2022.10.26

    近日，Facebook CEO 扎克伯格透露公司正在研究一款可用于AR眼镜的脑机接口技术，但该技术并非将AR眼镜以植入性芯片的形式进行，而是希望能开发成可量产的可穿戴技术。
    类似《刀剑神域》中那般脑机接口被认为是虚拟现实的最终形态，也是最理想的形态，然而这个离我们似乎还有些遥远。
    一直想要发展VR社交的Facebook，一边在规划几十年后的未来，同时也在踏踏实实地走好每一步。比如刚刚公布的Codec Avatars技术，就让VR社交中的虚拟人物表情动作达到了非常真实的状态，仿佛在虚拟世界中复刻了一个“真实”的你。

    研究助理Autumn Trimble正坐在“Mugsy”里面，Mugsy正是Facebook位于匹兹堡的Facebook Reality Lab（FRL，原来Oculus 研发实验室Oculus Research），用于创建“codec avatars”的捕获设施之一。
    视频画面中有一名年轻女子，她的眼睛闪烁着光芒说：“门口站着一个大块头的傻瓜。然后他说：‘你以为你是谁，莲娜·荷恩（上世纪美国超级黑人巨星）吗？’我说虽然我不是荷恩，但我就像姐姐一样了解荷恩。”
    上面这段独白来自沃顿·琼斯的戏剧《1940年的广播时刻》的开场白。画面中的年轻女子继续说着这段台词，能看出来她很清楚自己在做什么。当她详细讲述门卫的声调变化时，脸上荡漾出笑容，就像在跟你讲笑话一般。她咬字准确时，嘴唇的形状会发生恰到好处的变化，声音抑扬顿挫。她的表情经过如此精细的校准，朗读台词时如此地胸有成竹，再加上黑色背景，恍然之中你会觉得自己仿佛正置身于百老汇剧院，眼前在上演的正是上世纪70年代后期的百老汇戏剧。
    唯一的不足之处就是：她脖子以下的身体都消失不见了。
    Yaser Sheikh伸出手停止了视频的播放。刚刚画面中的年轻女子实际上是一个看上去极其逼真的VR虚拟化身，她令人惊艳的表现背后是收集的数据在运作。Sheikh是FRL的负责人，他还拿出了另一个令人印象更加深刻的视频。在该视频中，刚刚的那个女子和一个男子都戴着VR头显。在屏幕的左侧，真实世界中的他们正戴着头显在聊天；而与此同时，在屏幕右侧，他们的虚拟化身正在听着精彩绝伦的音乐会。他们聊天的话题却很稀松平常，聊的是热瑜伽——这样的场景是对未来生活的惊鸿一瞥。
    Facebook的新黑科技：Codec Avatars
    多年以来，人们在虚拟现实中一直都是通过电脑生成的虚拟化身来代表我们进行互动。VR头戴设备和手持控制器都是可追踪的，所以我们在现实世界中的头部动作和手部动作可以出现在这些虚拟对话场景中，这些无意识的习惯动作也为虚拟世界中的对话平添了至关重要的一点——和谐感。
    然而，即使我们的虚拟互动变得更加自然，由于技术限制，虚拟互动在视觉上只能保持在很简单的程度——就像Rec Room和Altspace这样的社交VR App一般，只能将我们的形象抽象成漫画，基本不会（如果有的话）映射出我们在真实世界的表情。但Facebook的新技术Spaces能够用社交媒体照片生成一个形象逼真的动画形象，但有些表情仍然依赖于按钮或手柄来触发。即使像技术要求更高的平台，如高保真领域，它的确可以让用户导入自己的3D扫描模型，但如果要求虚拟形象感觉像你一样栩栩如生，道阻且长。
    最初，Yaser Sheikh和他的团队在匹兹堡市区东部的自由社区租了一间小办公室开始进行这项技术的研发工作，目前他们已搬到卡内基梅隆校园内，空间更大，并计划在未来一两年内再次扩展。FRL称这项技术为CodecAvatars，是用机器收集、学习和重建人类社交表情的结果。目前，他们还没有准备好正式推出这项技术。最好的情况是，还需要花上几年时间，前提是他们最后能够成为Facebook部署计划中的一部分。但是FRL团队已经准备好开始大展拳脚了。
    Sheik说：“如果我们真的能把这件事做好，绝对是非常轰动的。我们想把它做出来，聊聊它的用武之地。”他脸上带着胸有成竹的笑容，对于团队能完成这项技术显得信心十足。
    1927年，美国人类学家、语言学家爱德华·萨丕尔发表了一篇文章《无意识的社会行为模式》。在文章中，萨丕尔提到人类对姿态的反应是“一种复杂又神秘的代码，没有文字描述，无人得识，却众人皆知” 。92年之后，萨丕尔所说的精密“代码”成为了Sheikh为之不断努力的任务。

在Sheikh进入Facebook之前，他是卡内基梅隆大学的一名教授，负责研究计算机视觉与社交感知之间的交集。2015年，当OculusVR首席科学家迈克尔·阿布拉什（Michael Abrash）与他联系，讨论AR和VR未来的方向时，Sheikh毫不犹豫地分享了自己的愿景。现在，Sheikh手里总是端着一杯咖啡，他说：“VR的真正承诺是戴上头显进行像视频中这样的对话，而不是飞来亲自见到我。你能看到的形象，不是卡通版本也不是怪物版本，而是你在真实世界里的行为举止和音容笑貌。”

在Sheikh为该设施撰写的原始文件中，他将其描述为“社交实验室”，指的是大脑对虚拟环境和互动做出反应的现象，如同对真实环境做出的反应一般。然后，他还写道他们认为在7－8名员工的努力下，能够在五年内开发出照片级程度的虚拟化身。这项项目虽然保留下来了，但对此的期望却发生了改变。这也同样反映在其实验室的名称上：Oculus Research去年改名为FacebookReality Labs。

    Codec Avatars的原理很简单，是一种双重测试，Sheikh称之为“自我测试”和“母测试”：你应该爱你的形象，被你所爱的形象也应该爱你。启用虚拟化身的过程要复杂得多。第一次使用是在一个名为Mugsy的圆顶状房间里，房间中的墙和天花板上镶嵌着132个现成的佳能镜头和350个灯光，均聚焦在椅子上。坐在房间中心的感觉就像是置身于一个由狗仔队组成的黑洞里。 Sheikh还说：“我之前给这个地方取名叫“Mugshooter（脸部狙击）”，但是之后我们觉得到这是一个挺可怕的名字，不太好。” 不过Mugsy早已经历了几次更新，Mugsy的摄像头变多了，能力也变得更强，把那些老早的设备（比如在一根绳子上绑上乒乓球，让参与者的脸保持在合适的位置上，就像车库里的车一样摆正）淘汰了。
    在Mugsy中，研究参与者花了大约一个小时坐在椅子上，制作了一系列超大的面部表情和大音量的朗读声线，而另一个房间的员工通过网络摄像头指导他们如何做出适当的表情。“像鱼那样活动脸颊，”技术项目经理Danielle Belko说道。

    另一个名为Sociopticon的捕获设施会更好地应用于第二个捕获区域（在加入Oculus／Facebook之前，Sheikh在Carnegie Mellon建立了它的前身Panoptic Studio）。Sociopticon看起来很像微软的MR捕捉工作室，虽然有着更多的相机（180到106）、更高的分辨率（2．5K）和更高的帧速率（90Hz）。当Mugsy集中捕获面部表情时，Sociopticon帮助Codec Avatar系统了解我们的穿着，以及我们的身体如何进行移动。因此，人们在那里的时间并不仅仅是活动面部表情，还要摇晃四肢，四处跳跃，通过网络摄像头与Belko玩耍。
    这一切的关键是尽可能多地捕获信息，Mugsy和Sociopticon每秒可以收集180千兆字节的信息，以便神经网络尽可能学习从每个可能的角度将表情和运动映射到声音和肌肉。它捕获的信息越多，其“深度外观模型”就越强大，从而更好地将信息编码为数据，然后在另一端，另一个人的头显将其解码为虚拟化身，这就是Codec Avatars中的编解码的过程。

    这不仅仅是原始的测量。正如研究科学家Jason Saragih告诉我那样，他们还必须将数据解释出来。毕竟普通用户的起居室里并没有Mugsy和Sociopticon，他们只有AR／VR头显。虽然今天的VR可穿戴设备被称为头戴式显示器，但FRL的研究人员已经创建了一系列HMC或头戴式捕捉设备。这些HMC在面部各个区域设置了红外LED和相机，允许软件将数据重新融入到人的形象中。
    在不久的将来，Sheikh和他的团队希望能够将面部扫描扩展到整个身体，因此软件需要能够解决Saragih所谓的“外在性”，否则虚拟交互将不会那么逼真。例如当人们处于黑暗状态时，系统需要进行补偿。如果你将手放在背后，系统需要解决这个问题，这样如果你的朋友在VR中走到你背后，他们就可以看到你的手在做什么。还有一些其他的东西，比如预测用户的移动方式，从而保证虚拟化身的运动能尽可能顺利，但它们都旨在消除变量，让你的虚拟形象成为一个不受约束、纯粹的代表。
    体验：效果惊艳，略有瑕疵
    把人的形象栩栩如生的展现出来很难，这才是事实。即使是超级大片一般的电子游戏也会在头发、眼睛、鼻子和嘴巴内部等细节上挣扎，总会有一些部分让它们看起来并不像是完全的人类。根据我对捕获过程的经验，当我戴上头显与Sheikh和研究员Steve Lombardi进行实时聊天时，我预想在VR中会出现同样的情况。
    但事实上并没有。Sheikh的化身虽然没有他现实生活中那样的胡须或圆形眼镜，但这就是他，并且是完全的他。当他邀请我靠近并仔细观察他脸上的胡茬时，感觉非常具有侵略性。Steve Lombardi也是这样，当后来他的真人走进房间时，我觉得我早就认识他了，尽管我只在VR中见过他。虽然结果并不完美，例如当人们兴奋地说话时，他们虚拟化身嘴巴的动作并没有和语调相统一，此外头发虽然根根分明，但周围总有一个模糊的光环，舌头看起来也有些模糊，但总体看来，效果是令人感到不可置信的好。

    这次的体验是一个很了不起的经历，同时也很麻烦。虽然Codec Avatars还是一个研究项目，但我们现在已经对它有了一定了解。
    之前大火的AI换脸程序Deepfakes可以凭空创造面孔，人们的数据隐私、错误信息活动和恶性行为已经成为当下互联网上非常真实的问题。随着VR和AR出现并成为人类主流的通信平台，这些问题将会变得更加严重。你觉得网络上的骚扰很糟糕吗？你认为能增加体现个人空间的VR会令人不安吗？人们对此还没有足够的了解。
    Sheikh理解这种担忧。“真实性不仅对Codec Avatars的成功至关重要，对于保护用户也很重要，”他说道。“如果你接到你母亲打来的电话，你听到了她的声音，那么你不会产生任何疑问，因为她说的就是你所听到的对吗？我们必须建立这样的信任，并从一开始就保持。”他引用HMC上的传感器作为认证的重要手段：我们的眼睛、声音甚至习惯都是一种生物识别技术。在过去几年中，围绕数据隐私和虚拟现实的对话越来越多，而这样的突破可能会使他们的热度达到一个新高度。
    对于VR在过去十年间所取得的所有进步，像Codec Avatars这样的技术代表了我们正在向全新体验阶段过渡。每年在Oculus Connect开发者大会上，迈克尔·阿布拉什都会上台演讲，并公布公司的最新研究和创新项目的状态。随着时间的推移，他更看好VR的一些突破。他说道：“我不是在打赌说四年内就一定能开发出令人折服的虚拟形象，但这也不是完全不可能的事。”
    现在和Yaser Sheikh坐在一起，我问他对当时阿布拉什的宣言有何感受？
    “他是对的，”他微笑着喝着咖啡说道。