虚拟人行业深度研究报告：乘元宇宙之风，虚拟人产业发展加速

2024.05.13 奇幻空间

    来源：中银证券
    作者：卢翌
    点击查看PDF原文
    以下内容转自行业研究报告?
    导语
    在元宇宙概念中，未来每个用户都将依托虚拟人为化身进入虚拟世界中探索，虚拟人技术将成为元宇宙时代的基础技术之一。
    1 元宇宙基石，多行业渗透虚拟
    人指具有数字化外形的虚拟人物。，虚拟数字人具备三大特征：1）拥有人的外观及性格特征；2）拥有通过语言、表情或肢体动作表达的能力；3）拥有识别外界环境、与人交流互动的能力。在元宇宙概念中，未来每个用户都将依托虚拟人为化身进入虚拟世界中探索，虚拟人技术将成为元宇宙时代的基础技术之一。
    最早的虚拟人出现于 20 世纪 80 年代，受限于技术，当时的虚拟人制作以手绘为主。21 世纪初，随着动捕、渲染等技术的逐步发展，虚拟人相关技术开始在影视领域逐渐普及，用于呈现超现实角色和场景。2007 年初音未来的诞生标志着虚拟偶像行业进入蓬勃发展的阶段。近些年来，随着 AI 和深度学习算法的出现，虚拟人的制作环节被大大简化，同时虚拟人的功能性也日渐凸显：数字员工、智能主持人等新业态被开发。目前国内各大相关公司均已开始虚拟人相关的布局和变现，预期其在娱乐、电商、教育、文旅等诸多行业的应用将逐步落地。
    虚拟人产业已经发展出了由技术层、平台层、应用层组成的产业链结构。虚拟人的基础技术层为虚拟人的生产制作提供技术支持，主要可分为硬件部分和软件部分。硬件包括所有虚拟人呈现及交互所需的硬件，如显示设备、芯片和交互所用的光学器件、传感器等；以及制作虚拟人时需要承载算力的计算设备、动作捕捉所用的各类光学器件以及动作传感器等。软件端除了呈现和交互软件外，在制作环节还需要建模软件和渲染引擎，如 Unity Technologies 的 Unity 3D、Epic Games 的 Unreal Engine 等。
    虚拟人平台层是将技术层中各独立技术进行串联，应用在具体的项目设计中，主要包括建模、动捕、渲染等制作环节。平台层公司目前在高速发展中，竞争壁垒主要在如何结合技术能力和文化设计能力，为下游应用层提供整合的虚拟人解决方案。随着 AI、算法、5G 网络等技术发展，制作环节成本仍有下降空间。
    虚拟人应用层将虚拟人应用于各行业领域。虚拟人相关技术首先在影视、传媒和游戏领域有了多年应用的积累，随着技术进一步成熟正逐步呈现出新的赋能方式。目前在金融、文旅等领域，虚拟人凭借其与 AI 技术的结合，以及成本、表现力优势逐步开始提供数字员工、虚拟导游等服务。
    2 制作技术逐步成熟，降本普及未来可期
    制作流程：三大流程为主，技术促进流程简化
    虚拟人的制作流程涵盖了诸多技术，制作方式仍在逐步进化中，存在某些步骤互相融合的趋势，但尚没有完全定型的整套解决流程。虚拟人制作流程中最为核心、最具挑战的是建模、驱动、渲染三大流程。
    具体的制作步骤是：1）以真人为模型或设计人物为虚拟人建立基本的 3D 模型。2）通过真人动作捕捉等形式确定虚拟人的基本动作，也即驱动环节。3）根据在设计环节中确定的虚拟人最终呈现效果和应用场景等外界要素，将模型与其运动进行渲染以呈现最佳效果。
    建模：静态扫描广泛应用，动态光场指引未来
    目前的建模方式主要可以分为三种：1）手工建模，这是最初的建模手段，目前仍广泛应用，但人工制作周期较长。2）图像采集模型，通过几张照片还原人脸 3D 结构，但其精度仍不足以建立高质量模型。3）仪器采集模型，目前发展的重点，精度可达 0.1 毫米，但目前成本较高。
    仪器采集模型方面，目前仍以静态扫描模型为主，可具体细分为结构光扫描重建与相机阵列扫描重建。结构光扫描重建系统由投影仪与摄像头构成，其原理是投影仪投射特定光、摄像头采集信息，最后以图像处理和视觉模型复原整个三维模型，iPhone X 所使用的人脸识别技术便是基于此原理。该技术为早期静态建模技术主流方案，精度可达 0.1 毫米，设备要求相对较低，是一种比较经济的扫描方案。不过由于其扫描时间长达一秒至几分钟，难以满足人体等运动目标重建需求，因此多用于工业、检测领域。
    另一种静态扫描技术：相机阵列扫描重建正替代结构光成为主流的人物建模方式，其原理是通过相机阵列拍摄的图片间的相同特征点进行匹配、校准以重建人物模型，该技术在国际上已成功商业化并被应用于电影、游戏制作中。
    动态光场重建技术是目前重点发展的方向，这类技术在搭建精细几何模型之外，还可获得动态数据，高品质呈现光影效果。动态光场的原理是使用成系统的、独立的编程模块控制光源的亮度、颜色，与相机协同，模拟各种光照环境，获得不同光照下准确的模型。业界具有代表性的产品 Light Stage 5 被应用于《本杰明·巴顿奇事》、《阿凡达》等好莱坞大片制作中。这项技术的开创者 Paul Debvec 也因此获得了 Oscar SciTech Award。该技术由于成本较高、难以运输、组装难度高且尚未出现商业化的通用解决方案等原因，尚未在国内得到普及，国内的清华大学、商汤科技等已推进相关研究。
    驱动：动捕技术侧重明显，逐步形成互补体系
    虚拟人驱动部分按照基本逻辑可拆分为面部动作和肢体动作部分。面部动作部分最具挑战的是嘴部动作，其基本逻辑为：以文本为起点，制作相关语音与动画，并通过大量模型训练，最终达到任意文本可驱动的模型。具体驱动方式有视频算法训练，即使用大量与文本绑定的语音嘴型视频进行机器训练；接着将语音与动作相绑定，从而达成文本输入到特定动作的实现；最后通过相关设备采集点，将真人的面部动作还原到模型当中。在嘴型以外，其他面部动作目前多采用随机策略，或某脚本策略循环播放预先录制动画，文本与动作间的匹配主要通过手动配臵，未来将在 AI 技术下实现自动化。
    目前数字人肢体动作主要的生成方式是动作捕捉，具体实现方式是光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。

    1）光学式动作捕捉
    光学动作捕捉的原理是首先跟踪、识别并命名目标身上各反光标记点，得出目标的基本骨架，再通过空间中多个镜头对标记点位臵进行持续跟踪，完成对运动的记录。光学动作捕捉精度较高，但需通过相机的位臵角度建立三维空间坐标，对环境要求高，软硬件造价高昂。
    2）惯性式动作捕捉
    惯性动作捕捉主要使用装备于人体各主要骨骼节点上的惯性传感器，来完成数据采集，最后通过处理建立运动的三维模型。惯性传感器组成部分有集成加速度计、陀螺仪和磁力计等，可收集运动目标的各部位速度、姿态、方位等数据。惯性动作捕捉技术高度适应不同的环境，成本相对较低，使用便捷，能在某种程度上弥补光学动作捕捉的缺点，但精度较低、连续使用易产生累积误差。
    3）基于计算机视觉的动作捕捉
    基于计算机视觉的动作捕捉技术使用多个不同角度的高速相机对目标进行拍摄，计算机视觉基于拍摄到的二维图像、三维形状特征还原各关节点运动信息。该类动捕技术主要使用光学高速相机，动捕对象通常不需穿着设备，精确度高，成本相对低廉，近些年兴起后获得青睐并在不同的应用端逐步推广；但计算量庞大、受环境影响大。
    渲染：核心环节决定呈现效果，技术发展引领行业变革
    渲染指对三维物体或虚拟场景加入几何、视点、纹理、照明和阴影等信息从而达成从模型到图像的转变，渲染决定了最终作品的质量与风格。渲染技术的升级是综合实力的体现，每一次技术提升对数字人皮肤纹理、3D 效果、质感和细节等方面提升巨大，目前常用的 3D 渲染引擎包括 UnrealEngine 4, CryEngine 3, Unity 3D 5，都具备丰富的应用经验。
    渲染技术分为两类，离线渲染技术（预渲染技术）和实时渲染技术，其本质区别是在目前发展状况各项局限下，对时效性和图形质量间的取舍。离线渲染技术不关心完成速度，这类渲染技术主要应用于影视动画等方面，其对真实度、精细度有较高要求，可使用更多的计算资源。实时渲染技术重点关注交互性与时效性，适用于用户交互频繁的场景，如游戏、虚拟客服、虚拟主播等，此类场景要求快速创建图像。目前图形生产硬件和可用信息的预编译等提高了实时渲染的性能，但其质量仍然受限于渲染时长以及计算资源。随着硬件与算法的提升，实时渲染技术已具备较强的综合表现实力，预计将逐步普及。
    克服恐怖谷效应，迎接虚拟人时代
    虚拟人制作如何克服恐怖谷效应是绕不开的话题。恐怖谷效应在 1970 年提出，指人们对机器人的正面情感随着其类人程度增加而增高，但当达到一个较高的临界点时，其残存的非类人特征会变得十分显眼，引起人们强烈的不适感。目前被广泛接受的解释是失败的虚拟角色作品往往过于偏重最终效果的立体感，而忽视了渲染后皮肤材质的怪异，同时 CG 技术的不成熟导致角色失去微表情、眼神较为死板等不好的表现，引起观众负面联想。
    随着技术的逐步发展，PBR、重光照等渲染技术克服了拟人角色的质感问题，同时更为先进的动作捕捉技术也有能力捕捉如眼球运动等细微的动作，Light Stage 为代表的新型建模技术更是能从初始环节建模就几乎做到以假乱真的程度。目前市面上的超现实虚拟人已证明尖端虚拟人制作技术已有能力克服恐怖谷效应，具备甚至超过现实角色的吸引力，预计随着技术的进一步发展以及成本的降低。更多更精致的虚拟人将服务人们的生活，并成为习以为常的一部分。

    与，AI、算法的开发和建模数据积累还需要时间，尚难以实现高效率地生产高质量虚拟人。因此从制作成本上看，一个标准化的功能型虚拟人项目（客服、导游等）基本需要投入十几万-几十万区间的成本，具体数额取决于建模精细度、渲染实时性、交互深度等技术细节。而虚拟偶像、虚拟 KOL 等制作成本则要更高，例如“邓丽君”虚拟人、柳夜熙等，成本高达上百万，如要在舞台现场表演呈现更好的效果，则成本更高。
    我们预计未来虚拟人成本有很大的降低空间，主要依赖于技术进步。云计算可以帮助降低建模和渲染阶段的算力成本，5G 通信技术降低网络传输成本，再加上 AI、算法、机器训练、大数据的配合。未来或将出现综合的虚拟人制作引擎，有效地将各类技术串联应用，大幅度降低虚拟人制作门槛。目前已有部分平台层公司致力于发展虚拟人制作引擎，提供更有效率的制作平台服务。
    3 应用边际不断延伸，商业空间拓展可期
    功能型+身份型，各类虚拟人应用热潮涌动
    应用场景与虚拟人类型密不可分，功能型与身份型是当前虚拟人应用中最根本的两个类别。功能型虚拟人作为现实职能的替代，应用于标准化内容生产中。根据内容生产的灵活性，又有非实时交互与实时交互之分。功能型虚拟人主要以替代人工生产，提高效率为目的。身份型虚拟人则是超越“替代”，拥有独立身份，被赋予个性的人格特征，参与现实生活中的娱乐和社交，以创造经济收益。其又可细分为虚拟偶像类、虚拟角色类、虚拟化身类三种。量子位研究预测到 2030 年，功能型（服务型）虚拟人的市场规模将达到 955.4 亿人民币，占虚拟人整体市场规模的 35.4%。

    身份型虚拟人：虚拟偶像打开应用先河，虚拟 KOL 欣欣向荣
    虚拟偶像是身份型虚拟数字人的重要类别，也是主要的变现方式之一。1982 年，以手绘技术作支撑的世界第一位虚拟歌姬林明美诞生，虚拟人首次被引入现实世界，其发布的音乐专辑取得骄人的成绩，证明了虚拟人利用高质量内容变现的商业模式的可行性。随后职业偶像始终作为虚拟偶像发展主流，海外及中国均不断推出歌唱类或唱跳类虚拟偶像，包括以初音未来为代表的日本虚拟歌姬，和以洛天依为代表的中国虚拟偶像，走出了较为成功的商业变现之路。
    2016 年以后，虚拟角色兴起，虚拟主播、虚拟 KOL、虚拟品牌形象频频出世，相较于职业偶像，虚拟角色更垂直，在直播、电商、品牌营销等细分场景参演。至今身份型的虚拟人应用领域中形成了职业虚拟偶像与虚拟角色繁荣共生的局面。
    虚拟偶像可以由原有 IP 衍生，也可以进行全新的 IP 创造：
    1）依托原有 IP 打造虚拟偶像主要是通过已经存在的动漫、游戏、电影、小说等，将其中的人物角色在不改变其原本背景和人设的情况下，衍生出一个虚拟偶像，参与现实活动。被选择虚拟化的人物角色本来就拥有 IP，甚至是具有强粉丝效应的，因此该类虚拟偶像在前期的人设打磨与后期 IP 培育上的成本投入相对较少，能更为快速地投入应用。
    目前国内主要在游戏及小说 IP 上进行虚拟偶像孵化。2019 年腾讯游戏旗下《王者荣耀》IP 的偶像男团“无限王者团”正式出道，其成员由全玩家票选出的得票数最高的五位英雄组成。该虚拟偶像团体开通微博、选拔粉丝制作人、登陆选秀综艺，打造出沉浸式的破次元追星体验。依托《王者荣耀》这一款极具国民影响力的游戏 IP，无限王者团拥有大量粉丝群体，持续推出专辑或单曲，演唱电视剧主题曲，与明星合作唱跳舞台，又反向拓宽了王者荣耀的 IP 边际。
    阅文集团旗下电竞小说《全职高手》男主角叶修一经虚拟化出道，依靠原小说赋予其的荣耀网游全职精通人设，就收获网文 IP 的大批粉丝群体，其生日直播间人气爆棚，迅速承接跨界代言，涵盖食品、快消，甚至金融等领域，2019 年身价超 10 亿。
    2）创造新 IP 即虚拟人的人物背景、人物形象、人物设定等均由公司根据后期的商业化方向自行创作。偶像出世后再进行 IP 的培育以实现商业循环。这种线路下的虚拟偶像没有先天的流量基础，前期人物设计需要策划上的创意，赋予其故事性和情感表达，3D 或超写实虚拟人也需要持续的技术实力投入，后期为占领市场赢得用户在孕育 IP 中更离不开多元的资源渠道开辟。虚拟角色类因为面向更为垂直的领域，多采用此方式以有针对性地打造更具个性的虚拟人物。
    国内兼具虚拟人制作的核心技术、应用技术及内容运营一体的综合性公司比较少，原创虚拟 IP 通常由内容运营较强的公司打造，技术进行外包。天矢禾念、魔塔时空、世悦星承等均已孵化出较为成功的原创虚拟偶像，形成自己的特色虚拟人 IP。
    虚拟偶像和 KOL 的迅速发展由供给和需求端双方推动
    从需求角度看，文化潮流和“宜家效应”是最重要的推动因素。艾瑞咨询数据显示 92.3%的虚拟偶像爱好者年龄在 19-30 岁之间，Z 世代构成其主要消费群体。Z 世代出自美国社会对世代划分的用语，指 1995-2009 年间出生的人，即互联网世代，又称网生代。Z 世代在网络、动漫等元素浓厚的世代成长，他们习惯于接触并接纳新兴事物，二次元、偶像文化等要素已经成为了 Z 时代群体的标志。
    虚拟偶像所在的二次元、游戏电竞和偶像文化圈层正是 Z 世代最感兴趣的热点圈层，因此对于他们而言，虚拟人形式的产品更容易被接纳并认同，更有机会引起自发的传播。我们认为 Z 时代的身份意识、不断增强的个性化需求、对小众圈层文化的热情将为虚拟偶像市场注入源源不断的需求。
    此外，虚拟偶像能利用“宜家效应”心理使其具备独特的优势。“宜家效应”指消费者倾向于将自己投入劳动、情感而创造的物品价值高估的价值判断偏差现象。传统偶像经济中，真实的偶像其作品人设等都通过其自身以及公司所打造，粉丝单方面接受其输出的产品。而虚拟偶像具备高参与度的特性，其作品不仅限于官方发布的内容，粉丝可以有极高的二创自由度。例如虚拟歌姬洛天依，其拥有的上万首原创歌曲中，有 90%的曲目都来自于同人创作，其中诞生了《权御天下》《普通 Disco》《达拉崩吧》等多首高热神曲。
    低门槛且高自由度的二创不仅使虚拟偶像能无成本获得大量优质作品，而且使参与的广大粉丝们对偶像认同感、亲切感更高，更能建立更长期、更深厚的情感连接。
    从偶像产业供给的角度看，虚拟偶像 1）生命周期长，可以不断迭代；2）纯 AI 驱动下操控性强，延展空间大，可以在任意时间使用；3）人设稳定无负面新闻。这些特点都使得其具有比真人偶像更高的价值。
    虚拟偶像的打造省略了艺人选拔与培训环节，但在形象策划与制作环节因为目前虚拟人技术门槛还较高、不具有规模效应，因此企业面临较为高昂的制作成本。同时，前期对人设打造创意也提出较高要求，这与后续 IP 运营的开展息息相关。创造完成之后，在运营环节，为提高曝广度，运营方需要在渠道平台持续投放图文或短视频，这将带来比真人偶像更高的运营费用，因为虚拟偶像制作一条短视频内容成本可达数万元。但在虚拟偶像价值的变现阶段，其较真人偶像的优势凸显：虚拟偶像生命周期长，可以不断迭代，根据粉丝审美变迁可以不断扩展内容；纯 AI 驱动下操控性强，延展空间大，可以在任意时间使用。因此运营公司也有动力研发虚拟人，促使其应用的推广。
    另外，人设稳定不塌房也是虚拟偶像相比真人具有的巨大优势。根据头豹的调研，在以 95 后为调查对象的问卷中，62.6%的受访者喜爱虚拟偶像是因为永远不会有负面新闻，永远保持完美人设；其次是喜爱二次元文化，占比为 49.6%，其余如缓解现实中的焦虑、社恐等负面情绪也是原因之一。
    偶像文化的心理基于粉丝将自身最为真实的情感寄托在其身上，从而深度绑定粉丝并影响粉丝从情绪到消费等行为。对真人偶像进行情感绑定的风险相对更高，而虚拟偶像产生丑闻或意外状况的可能性微乎其微，更稳定可控，在娱乐圈丑闻频出的当下，粉丝具备更高的安全感从而产生更毫无保留的情感寄托。
    功能型虚拟人：已应用于多领域，是未来元宇宙的必要基础设施
    功能型虚拟人指替代部分人工职能，用于标准化内容生产的虚拟人，也可以称为服务型虚拟人。虚拟人技术与 AI 融合使很多公司可以在提供线上服务或产品时不仅能以更具亲和力的方式提供原有服务提高用户满意度，而且能在每一笔交易中通过蕴含公司文化的虚拟形象更深入地向用户种草并占领用户心智。
    从早期无形态的语音机器人，到可以简单交互的虚拟助手，如今更是向更具真人模态的实时交互虚拟人发展，功能型虚拟人至今已经被应用于多种领域。随着技术的成熟，其应用深度和广度都将被进一步开拓，在未来元宇宙中，功能型虚拟人更是必要的基础设施，担任虚拟世界 NPC 角色。
    传媒领域：乘政策利好东风，虚拟主持人加速走进大众视野。2021 年 10 月，广电总局发布《广播电视和网络视听“十四五”科技发展规划》，明确提出推动虚拟主播广泛应用于新闻播报、天气预报、综艺科教等节目生产，创新节目形态，提高制播效率和智能化水平。功能型虚拟人在这一政策利好下将通过传媒领域加速渗透。
    早在 2004 年，央视电影频道就推出了第一位虚拟主持人小龙，但由于当时国内虚拟人技术不成熟，小龙的智能水平低，只是昙花一现。如今虚拟新闻主播和虚拟主持人已经走向高拟人化和高智能化，在其 AI 系统支持下，不仅能通过文本输入实现声音加画面的同步输出，大大提高内容产出效率和准确性，而且形象超写实，可根据不同场景选择姿态、动作、服装等，带给观众良好的审美体验。甚至在实时渲染技术加持下虚拟主持人能参与进节目录制或直播中，完成实时互动：2019 年小小撒亮相央视春晚直播，与撒贝宁互动；2022 年湖南卫视虚拟主持人小漾参与综艺《你好星期六》录制，与真人主持团互动。
    金融领域：银行引领虚拟人应用场景落地。功能型虚拟人在金融领域的应用较晚，2018 年才初具规模，但随着行业对金融科技投入的持续加大，虚拟人应用在金融领域迅速崛起。从金融市场细分结构来看，虚拟人应用目前主要集中在银行业，以虚拟客服或虚拟经理形态参与线上和线下银行网点工作，因为包括证券、保险、基金等金融机构开展的业务对个性定制化的要求较高，就目前虚拟人技术而言，应对此类高灵活性工作尚且不足。
    降本增效是虚拟人加速在金融业渗透的主要原因，以银行为例，平均每个营业网点需配臵 1-2 个客服人员，人力成本高，并且无法提供 7*24 小时的服务，同时服务质量参差不齐；而虚拟人作为数字产能，一经研制便能多地、多场景、多次且持续地使用，抛除支持虚拟人的硬件设备成本，应用的边际成本几乎为零，且智能化服务能达到标准的统一。
    其他：虚拟人在文旅、教育、医疗领域的应用已有尝试。就文旅而言，与互联网旅游、智慧旅游、虚拟旅游等有强联动性的数字文旅产业经过疫情的催化正蓬勃发展，以虚拟讲解员、虚拟导游为代表的功能性虚拟人将成为未来数字文旅的重要一环。商汤科技在 2020 年世界人工智能大会上展示的虚拟人小糖，是现“AI 上海·应用场景”现场展台的专属讲解员，可依托于展台前的滑动屏幕，讲述预先设定好的讲解内容，呈现出了文旅虚拟人应用的可预见性；医疗场景下虚拟导诊员可以提供医院导览、导诊，虚拟医生助手可以针对病患情况作出基础疾病的诊断，而多模态的 AI 虚拟医生则可以充当家庭健康顾问，甚至对存在心理问题的病人提供关怀与陪伴。