获软银4.4亿元投资、两次奥斯卡奖，揭秘虚拟数字人公司Soul Machine

2024.03.29 VR陀螺

    文／VR陀螺万里
    随着元宇宙概念的火热，形形色色的虚拟数字人也开始走进了大家的视线。最近我看到了不少虚拟数字人的新闻，一个是万科推出虚拟员工崔筱盼，他的业务能力爆表，办理催收业务核销率达到了91．44％，有正常人千百倍的效率；此前，洛天依入驻抖音直播，相传坑位费高达90万，简直拳打李佳琦，脚踢罗永浩。

    图源：网络虚拟数字人，作为元宇宙内容的重要交互载体之一，自然也受到了资本市场的青睐。据不完全统计，2021年虚拟数字人相关企业融资共有2843起，融资金额为2540亿元。今天陀螺君打算跟你们聊一家国外知名虚拟数字人企业——Soul Machines。
     年收入达1．6亿元，Soul Machine获资本青睐
     Soul Machines是一家专注于虚拟数字人研发的人工智能公司，总部位于新西兰。根据数据信息服务公司growjo资料显示，目前Soul Machines员工总数为222名，预估年收入为2600万美元。在上个月，这家公司宣布获得7000万美元的B1轮融资，由软银景愿基金领投。此前它的B轮投资是在2020年获得的，共计4000万美元。一般来说，虚拟数字人从工作属性可以分为两种类型：服务型虚拟数字人以及身份型虚拟数字人。
    首先说一下服务型虚拟数字人，它不要求颜值出众，个性鲜明，它起到的更多是一种工具人的角色，通过运用AI语音等技术，解决像客服、陪护之类重复性较高的工作，起到降本增效的作用。目前，Soul Machines主要发力点也是这一块。 Soul Machines在零售、医疗、教育、金融等领域推出了相应的虚拟数字人解决方案。目前跟它合作的客户包含了雀巢、宝洁等知名企业。 2019年，Soul Machines帮助SK－II设计打造了虚拟护肤专家Yumi。Yumi就像是一个线上客服，不过它以拟人形象出现在你面前，你可以跟她聊天，提问护肤相关问题。

为什么要推出虚拟数字人，当时SK－II CEO Sandeep Seth在采访中表示，相较于冰冷的文字客服，与虚拟数字人面对面沟通，能使消费者与企业间产生一种美妙的连接。当消费者需要护肤知识的时候，就能第一时间想到Yumi。在Soul Machines官网中，它贴出了一张虚拟数字人给企业带来的收益增长表，比如净推荐值提高90％、与Yumi交流，购买可能性增加了一倍。

图源：Soul Machines 而在卫生保健等领域，虚拟数字人也产生了积极的作用，Soul Machines表示可以做到40％的客户能够在零人工干预情况下获得解答。

图源：Soul Machines 前面说完了服务型虚拟数字人，还有一种是身份型虚拟数字人，简单来说就是我们常见的诸如柳夜熙、Imma等虚拟偶像。目前Soul Machines并没有涉及虚拟偶像领域。不过它有个临近的业务称之为数字双胞胎，也就是帮助明星打造高还原度的虚拟数字人。此前知名说唱歌手will．i．am就曾定制过它的数字双胞胎。从一些视频片段中可以看到，这个虚拟人物的建模精度很高，并且它的声音以及神态都做了很好的还原。

    官方表示这个虚拟数字人可以365天24小时全天候在线，就如同一个管家一样，为粉丝解答一些诸如明星的出生年月日、身高体重等基本问题。此外，你也可以利用这个虚拟角色装扮你的社交媒体。不过，我个人感觉，数字双胞胎服务还是挺鸡肋的，因为它能提供的服务价值非常单薄。并且这种私人订制服务，成本也是一个迈不过去的坎。根据Uphonest Capital的数据，仅仅制作单个高精度3D虚拟数字人形象，成本就已经高达上百万美元。所谓数字双胞胎，现阶段，还只是一个小众玩具。
     曾获两次奥斯卡奖，好莱坞级数字人特效
    一个虚拟数字人交互体验是否优秀，主要涉及到三方面内容：人物形象设计、语音交互以及肢体动作。其中，人物形象设计涉及到了建模、驱动、渲染等一系列步骤。虚拟人物拟人化程度越高，相对而言实现效果也会更为出色。人物设计是Soul Machines的核心优势之一。Soul Machines拥有先进的CGI以及自主动画技术。它所打造的数字人，具有极高的细节还原度。

值得一提的是，Soul Machines的联合创始人Mark Sagar，曾经从事《阿凡达》以及《金刚》的面部设计工作。因为电影的出色表现，他分别在2010以及2011年两度获得奥斯卡科技奖。目前Soul Machines面向企业推出了一项名为Digital DNA Studio（数字DNA工作室）的服务。这个服务包里面内置了一套面孔资源库，你通过数字DNA工作室能快速创造出一个虚拟数字人形象。这项服务能够大大简化以往虚拟人物设计流程。

影响虚拟数字人的第二点是语言交互。语言交互是一个复杂的工程，里面又会涉及到NLP（自然语言处理）、TTS、AI等一系列技术。目前很多虚拟数字人企业会倾向于把NLP方案外包出去。从官网开发者文档来看，估计Soul Machines也选择了外包方案。

Soul Machines打造出了自家的虚拟数字人Viola，只要你登陆它们官网，就可以跟Viola进行一番互动。它有点类似于一个拟人化的Siri，当你跟她交流的时候，她会回答你各种各样的问题。我试了一下，只能说体验一般。它只能回答一些简单的问题，比如说天气、地理位置或者名词解释等等。如果问题稍微复杂一点，往往就无能为力了。

与Viola交流说回最后一点，肢体动作。哪怕虚拟数字人造型逼真，并且语言输出流畅，如果它在运动时肢体僵硬的话，还是会给人一种一眼假的感觉。 Soul Machines研发了一个专为虚拟数字人打造的Human OS 2．0系统。这个系统获得了数字大脑相关专利。通过Human OS，虚拟数字人能够作出更加自然的表情以及手势动作。此外，通过摄像头，虚拟数字人还能够捕捉到你的眼神以及部分表情，并且结合你的聊天内容作出高兴、激动等表情。有意思的是，为了避免虚拟数字人给我们造成困扰，此前Soul Machines曾发了一条推文表示，为了让虚拟数字人更好投入到工作中，已经“阉割”掉了它们的愤怒，沮丧等负面情绪。不知道这算不算PUA的一种。

     虚拟数字人的三个等级
    总的来说，Soul Machines的虚拟数字人解决方案，尤其是在人物还原度这一块，已经处于行业领先水平。目前，NLP技术薄弱，人工智能化程度低，制造成本过高，仍是限制虚拟数字人发展的重要因素之一。就像是自动驾驶一样，Soul Machines在它们的自主动画框架中，也把虚拟数字人也划分为了5个等级。其中，等级1是最原始的，虚拟数字人的全部运作都需要人进行参与管理；2级的虚拟数字人，它可以通过脚本实现一些自动化操作；从第三级别开始，虚拟人有了训练算法的加持，能够进行深度学习。它能够表现出更强的自主性，人在其中的管控也会更加少。

如果我们将各大企业对号入座的话，就能够发现目前绝大多数的虚拟数字人仍停留在第一或者第二级别的水平。大部分能歌善舞的虚拟偶像，其实只不过处在一级阶段；而效率爆表的虚拟主播、数字员工等，也只在第二阶段。量子位的产业报告指出，2030年，我国虚拟数字人的整体市场规模将达到2700亿。不知道那时候，虚拟数字人又会有怎么样的进化，它给我们的生活又会带来什么样的变化呢？