声音也能做面部识别？这个Vive X团队用AI做到了！

2024.04.18 VR陀螺

    随着VR产业的开枝散叶和走向成熟，VR与众多其他技术的结合也展现出了极大的应用潜力。比如在刚刚结束的Vive X第三批团队Demo Day上，就出现了数家“丢掉”头显、只留下追踪方案＋Tracker的企业。
    Red Pill Lab是此次Vive X中唯一一支来自台湾的团队。而能够从数千家申请企业中脱颖而出，正是因为公司将独家的AI技术和Tracker相结合，成功实现了低成本的全身动捕方案。在Demo Day之前，VR陀螺记者也特地与公司的两位创始人RH和Brian深入了解了背后的技术，以及亲身体验了一把随时“变身”卡通人物的经历。

    成本不到2万块！用AI识别你的声音
    对于大多数人来说，“全身动捕”听上去是一项非常遥远和高大上的技术。实际上，这项本来用于影视行业的技术在近年来已经逐渐在泛娱乐产业得到应用，比如最近大火的“虚拟主播”就大都采用了全身动捕，而非真的使用人工智能。
    在Vive Tracker推出之时，其能够以低成本方式实现动作捕捉的能力也获得了不少关注。Red Pill Labs正是利用了Tracker的这一特性实现了对用户身体的捕捉，同时再通过AI进行面部表情的深度学习计算，从而在虚拟形象身上实时呈现出真人表演者的动作。
    但Red Pill最特殊的一点在于，和其他通过摄像头捕捉面部表情的方案不同，他们选择捕捉用户的声音。
    “我们认为声音是被很多人忽视的，”RH说。
    据他介绍，公司的这套系统在通过麦克风捕捉到用户的声音之后，借由AI对声音数据进行实时的分析，然后同步在虚拟形象脸部生成表情。这里的表情包含两部分，一个是实时的嘴形，其他部分则通过眉毛的运动来表现。

    这样的描述不禁让我想到了Animoji。当然苹果采用了TOF方案，也就是通过“刘海”那处的一系列深度摄像头来实现实时的面部捕捉。但是Red Pill的声音方案真的靠谱吗？
    从记者的体验来看，声音转化成面部表情的效果居然出人意料的不错。从视频中我们可以看到，动画人物嘴部的动作基本上和表演者的声音没有延时，同时也非机械的一张一合，而是随着声音的变化在幅度上不一样。同时，动画人物的眉毛也会在发声的过程中一起运动，包括眼睛的大小也会有小幅度的变化，这些元素交织在一起呈现出虚拟人物表情的变化。
    据Brian介绍，目前世界上正在研发这类技术的仅有Red Pill、英伟达和迪士尼。英伟达技术的限制在于，需要锁定同一个表演者的声纹和虚拟角色；迪士尼则需要先将要讲的东西变成文字，再让机器处理成虚拟人物脸上的实时表情。
    除了面部表情，Red Pill通过Tracker＋Lighthouse对表演者身体动作的捕捉也已经做到非常自然。在体验的20分钟过程中，动捕没有出现卡顿现象，蹲下、坐下、转身和小跑时的追踪也没有问题，肩膀和手腕也可以转动。由于公司的这套软件基于Unity的架构开发，因此也可以通过手柄上的按键实时切换虚拟表演的背景图片（视频），以及为虚拟角色设计武器、交互等。公司甚至还自行开发了一款手套，可以更为精细的模拟出手指的动作。

    Brian还谈到，目前这套方案最多可以让两位表演者同时进习动捕的表演。但随着新一代Lightohuse的推出，接下来将会实现4个人在10＊10平方米的空间内同时表演。
    而实现这些效果的前提——用户需要花费的成本相当低。对于有Vive的用户，只需另外购买4个Tracker，以美元计算为400刀；对于没有Vive的用户来说，目前购入一套Vive仅需500刀，也就是硬件成本在900刀左右。

    从VR社交转向教育和直播
    实际上，我和Red Pill Labs的CTO，也是创始人之一的Dobry早在去年7月的RISE香港展会上就有过交流。但是在9个月之前，公司还希望将这套系统用在VR社交平台上，AI技术可以通过对大数据的分析和深度学习来对Avatar的动作进行预测，数据越多，Avatar呈现出来的动作就会越自然和符合逻辑。

但如今，由于VR的主流之路并不顺利，公司的商业模式也已经出现了明显的转移，即从to C转向to B。RH说，接下来公司最希望在大陆的教育市场落地，尤其是针对儿童的早教和学前教育。在他看来，除了因为教育市场比较大以外，儿童对于虚拟角色的接受度也非常高。在台湾，公司已经在一家少儿英语学习中心中落地，采用入场门票收费的方式（约100元／小时）获取收入。

    除了实地的表演之外，Red Pill的一个更为远大的目标是希望能够将整套方案上传至云端，让更多的用户、表演者在足不出户的情况下，就可以在Red Pill远程直播中心进行节目的直播和收看。
    Brian认为，云端＋电视盒子的方式能够让更多人接触到这种全新的远程教育的方式，而且成本并不会太高。如果公司能够和电视盒子的服务供应商达成合作，就可以直接将自己的软件以应用的形式放到网络电视平台上。用户在家中只需额外安装一个摄像头，让表演者看到反应，接下来就可以很好的进行收看和互动。在收费模式上，则会采取收取月费的模式。

    总的来说，在教育培训的赛道上，Red Pill的技术可以拓展的方向还有很多。Brian特别提到，无论是线下英语培训还是现在十分火爆的在线真人英语教育，都可以考虑用虚拟老师的形式。因为对于孩子们来说，与卡通角色交流的压力要比和真人小得多。
    Red Pill的另一个特色在于，同样是做教育，但和大部分VR教育企业相比，头显这个最笨重的部分可以被完全抛开，这也就变相的降低了用户的准入门槛。
    虽然目前B端是Red Pill选择的主战场，但由于成本较低，这套动捕系统实际上也能够被一些有直播需要的个人所采纳。尤其是声音捕捉这一特点，让普通人通过麦克风就能够实现虚拟形象面部表情的实时同步。公司也为此做好了准备，在软件端设置了可以在YouTube、Facebook等开启直播的通道。
    动捕＋面捕的市场潜力有多大？
    Red Pill的这种打造“虚拟老师”的模式，不禁让我们想起了最近在日本爆红的“虚拟主播”。有趣的是，在此次的Vive X第三批团队中，正好有这样一家来自日本的虚拟偶像打造平台COVER，他们也选择通过Vive Tracker来实现全身动捕，然后实时反应在自家的虚拟主播“时乃空”的身上。
    在《年收3000多万日元，日本爆火的虚拟主播如何实现？》一文中，VR陀螺记者提到，通过打赏、广告的收入渠道，部分受欢迎的主播可以获得可观的收入。比如最知名的“爱酱”，光是在YouTube上的年收入就可以达到约180万元人民币。连COVER的时乃空每次1小时的直播也能有1．2－3万元的收入。
    从成本来看，由于对动捕效果的要求不像电影那么高，因此所用动捕系统的要求也相对较低。比如日本的很多厂商都选用了诺亦腾的Perception Neuron，套装价格为7280／10800元。

    在面部表情捕捉方面，现在主流采用的还是摄像头。表演者需要通过一个支架将摄像头固定在自己的面前，摄像头收集了面部信息通过线缆传输到电脑上进行处理。
    比较来看，Red Pill捕捉声音的优势在于：
    1．对用户来说能够表演的更加自然，因为无需承担摄像头和支架的重量，同时也不用打光；
    2．成本低和便捷，用户只需普通的麦克风即可实现无线传输。
    同时，Vive Tracker在动捕方面的潜力也在被逐渐发掘出来。此前，英国的软件开发商IKinema推出了一款叫做Orion的低成本动作捕捉系统，基于Lighthouse定位技术，由VR头显、运动控制器和3个Vive Tracker构成，年费为500美元。在采访中，RH也提到了这款竞品，并表示Red Pill相比之下对于电脑CPU的占用资源更少。同时公司正在不断优化AI算法，逐渐降低对电脑配置的要求。
    总体来看，动作捕捉和面部捕捉在泛娱乐产业的应用在逐渐增加，除了虚拟主播之外，也用于游戏开发。
    而在虚拟主播比较小众的中国，教育培训是一个不错的切入点：卡通形象能够有效调动孩子们的积极性，尤其是和本地的知名IP结合之后能够发挥更大的作用。而虽然虚拟主播在中国偶像化的可能性不太大，但在广告、营销、客服等场合也能够发挥用武之地，因为虚拟的形象天生要比真人更加有亲和力。
    无独有偶，在正在进行中的GDC上，Unreal在现场用全身动捕＋实时渲染技术，呈现出一个惊人逼真的虚拟角色“Siren”。在大厂的推动下，相信动捕技术和不同产业的结合也将越来越多。