【年度专题】2023“含AI量”大幅提升，数字人能否再获新生

2024.04.05 VR陀螺

    文/VR陀螺豌豆
    2023年画上句点，回顾这一年，AIGC工具继续保持爆发式增长的态势，数字人依旧坚守在各自的岗位，而点燃AI热度的OpenAI将曾经大众认为“只可远观不可亵玩”的AI一步带到普通用户面前。
    2023年底，AI企业更是掏出了年度“杀手锏”，11月举办的OpenAI首届开发者大会官宣多模态技术能力大幅提升，不仅是GPT-4V，短时间内其他多模态AI大模型陆续取得新的突破：Pika Labs的AI视频生成工具Pika 1.0，以及谷歌Gemini都向人们展示了多模态大模型的想象力和潜力，似乎能进一步升级数字人的“大脑”功能……
    潮起潮落，借着AI的东风如今数字人赛道又小火了一把，更多数字人以新面貌出现，逐步向智能化迈进。在AI的赋能下，数字人甚至可以演戏、进行实时互动直播、吟诗作对、写词作曲，例如异人之下数字人演员厘里、少年李白数字人、AI创作型歌手Anna Indiana、AI VTuber（Neuro-sama）、AI孙燕姿等等。

    图源：网络
    有了AI支持的数字人已成功造势，但行业生态算不上健康，玩着流量游戏、把握信息差密码在风口上割韭菜的大有人在，假设让数字人获得高阶AI能力，能否就此获得全方位升级，从根本上改善数字人场景应用难扎根的问题？AI已经是大趋势，数字人的未来如何落到实处？
    2023年数字人：流量难赚，步伐减慢
    通过塑造IP打造品牌影响力是数字人占领市场高地的主要战略。
    2023年12月，国内数字人IP库“元力趋势网”上线，据悉该平台目前已有超过300个数字IP入驻，包括头部IP星瞳、洛天依、苏小妹、厘里、柳夜熙、夏语冰、央视网小C等。

    图源：元力趋势网
    国内数字人的数量和外形质量都有了大幅度提升，也吸引不少传统企业尝试在该领域实现数字化升级。数字人的可就业场景丰富，无论是在电商直播间勤恳的打工数字人，还是文旅娱乐的数字代言人，又或是企业宣传对外的崭新形象，数字人似乎在To B领域更加吃香。
    在金融领域，中国银行业协会在第七届中国数字银行论坛发布《远程银行虚拟数字人应用报告》，报告指出，2023年已有11家客服中心与远程银行实现了虚拟数字人应用落地，5家银行正在筹建中。银行虚拟数字人已广泛应用于对客服务、风险控制、新媒体运营、内部赋能等领域。

    图源：央视网
    在文旅文博方面，有《关于推进实施国家文化数字化战略的意见》的政策性支持，在发展数字化文化消费的大方向下，中国国家博物馆的“艾雯雯”、中国文物交流中心的“文夭夭”、数字敦煌文化大使“伽瑶”和少年李白数字人等。数字人正以一种新的面貌向人们讲解历史、演绎经典。
    紧盯流量的背后是焦虑情绪的体现，而互联网流量经济进入存量时代，平台竞争加剧，红利增长受限，以资金换流量的营销方式难度加大。2023年对数字人行业来说，是充满挑战的一年。
    就连当年的现象级数字人柳夜熙，也似乎从美妆博主转型走上了内容路线，荧幕前的柳夜熙淡化其美妆属性，通过拍摄短剧强化自身IP。除了柳夜熙以外，早一批吃到红利的数字人们仍在继续营业，例如AYAYI、星瞳、希加加等。图新鲜的热度一旦过去，这些数字人后续的流量起伏变得更加不稳定。
    以直播为例，曾经一度火爆的电商直播数字人，如今热度也有所下降，目前仍有品牌方继续采用智能主播/AI主播来为直播间撑场。陀螺君注意到，某宝上更多的智能主播已经在向高仿真的外形靠近。

    图源：淘宝直播间
    比起之前几乎一边倒的3D卡通数字人，现在电商直播间更多的是近似真人的数字人主播，一进直播间若不是注意到右侧标记为“虚拟主播”等字样，下意识会以为是真人主播，但她们依然无法完成更高难度的互动：这些数字人主播由AI生成，有更自然的语调但口型不能实时同步，肢体动作不多，大多数情况下是主播单方面解说产品，互动较少，整体流量不高。
    直播是数字人应用最广的舞台之一，而不同直播平台对数字人主播也有不同的态度，大部分电商平台持欢迎态度，支持商家采用可24小时直播的数字人将“人货场”重新链接。另外知识分享类视频中使用数字人的情况也逐渐变多。
    在短视频平台则有所限制，例如抖音此前发布的《抖音关于人工智能生成内容的平台规范暨行业倡议》指出，数字人直播时必须由真人驱动进行实时互动，不允许完全由AI驱动进行互动。AI数字人主播在抖音的活跃度有所下降。
    数字人营销同样看重结果、数据和流量。但支撑数字人“内外兼修”的成本颇高，建模、AI、动捕、渲染等，样样都是“支出大头”。随着前期制作、后期运营成本增加等因素影响，不少企业会选择低成本的“通用型”数字人方案。最终到用户面前，在不同平台看到的是大同小异的量产型数字人，操着一口难以亲近的“机械音”，用户自然不买账。

    2023年VTuber的直播收入榜单（图源：Playboard）
    另外，海外的数字人直播同样值得关注，其集中在VTuber这一领域，且主要依赖真人（中之人）驱动。综合来看VTuber播放数、粉丝数和营收情况，企业势事务所几乎由hololive和彩虹社（包括日语系和英语系VTuber）各分天下，除了直播还能通过联名代言、发布专辑、参加商演、举办活动等方式获得收入。据主播动态数据网站Streams Charts的文章显示，VTuber是直播行业中增长最快的群体之一：
    “2022年期间，所有相关平台的VTuber直播观看时长达到9.79亿小时。2023年，直播观看人数大幅增长，总观看时长超过11亿小时，较去年增长14.2%。尽管2023年活跃的直播频道比上一年减少了9% ，但VTuber越来越受欢迎。相比实力强大的企业势VTuber，个人势VTuber通常不是最受欢迎的，但在所有VTuber直播频道中有73.9%是独立运营的。”

    2023年VTuber分布统计（图源：Streams Charts）
    如今数字人产业进入专注于技术沉淀的发展阶段。和2022年相比，疫情带来的影响逐渐淡去，人们的工作生活、娱乐活动重回线下，相应的对部分线上娱乐活动需求下降，以数字人为主导的虚拟演出等会受到一定影响，尽管IP的影响力不会因此减少，但考虑到运维成本，不少企业的数字人To C业务范围会有所调整，减缓在该领域的布局进程。相关阅读：《【年度专题】一年增长近20万家相关企业，数字人从量变到“应”变》 3D建模、动捕……数字人底层技术快速发展

    全球虚拟数字人产业图谱 2024版（图源：陀螺研究院）
    数字人正因为被赋予了人形的数字躯体，人们才对他们有了更多在身份、情感、伦理，甚至是数字生命问题的探讨，尽管其存在本身并不属于现实世界，但所需要的底层技术又与现实世界紧密相连。
    数字人并不是我们认知中的“纸片人”，通俗来讲，数字人是会动的（包括面部表情变化、躯体运动等），就算是2D形象的数字人也可通过Live2D技术为其注入生命力。细节见真章，3D建模、动捕等技术的快速发展令数字人的高保真程度更上一层楼。
    （一）外在形象更生动逼真
    在数字人的“创建”这一环，要塑造具象而立体的人物形象，大多数要经过建模这一步骤，扫描建模、照片建模、编辑、渲染等多道生成工序而成。

    火山语音数字员工小灿（图源：火山语音）
    前文提到的Live2D被认为是介于2D与3D之间的技术，也使用了大量的3D渲染算法，这项技术已颇为成熟，在插画、动漫、游戏、VTuber虚拟主播等领域均有广泛应用。Live2D Cubism Editor升级后的5.0版本添加了AI辅助功能，可实现半自动生成面部动作，还支持根据音频实时生成同步的口形动作，让2D形象的数字人得到了活力。

    图源：Live2D
    3D数字人在外形上的打磨更需费时费力。一是可使用传统软件手动建模，利用Maya、C4D、Blender等，但对专业知识和经验有着非常高的要求。二是可通过非接触式扫描设备进行扫描并创建贴近真人形象的3D模型。

    图源：《Metahuman》
    三是可利用相机阵列进行扫描建模，例如优链时代的云阵相机方案，通过架设近百台相机，对场地中间的人进行全方位拍摄，最终合成3D人体模型。四是可利用市面上已有的数字人编辑器平台完成创作，例如来画科技、相芯科技等企业的数字人生成平台，在给定的基础3D模型上调整，目前大多数数字人生成平台都有接入AI功能。

    图源：陀螺研究院
    多数情况下，静态的摄影测量方法在人脸建模方面的处理不够细致，看上去人脸像是平面一般，且五官细节不够突出，拍照时的光线等因素都会影响建模质量，相比之下，具备高视觉保真的多维动态光场重建技术有望成为未来趋势。
    多维动态光场建模技术优势是可以忽略材质，直接扫描三维世界的光线，在重建人物模型时，还可以一次获得人物的动态数据，以及不同视角下呈现不同光影效果的高质量3D人物模型，但因多维动态光场建模技术成本较高、难以运输、组装难度高且尚未出现商业化的通用解决方案等原因，尚未在国内得到普及。从技术发展路径上看会是未来的重点发展方向。相关阅读：《陀螺研究院发布<2023全球虚拟数字人产业图谱>》
    （二）动作捕捉更自然流畅
    要让数字人动起来，一是通过真人动作捕捉将运动数据传输到数字人身上，主要应用于对实时互动有要求的影视、游戏、直播领域。二是通过算法驱动，事先采集真人运动、语音等数据，基于深度学习技术训练人物模型，形成一套新的驱动模型与驱动方式。
    两者最大的差别是，前者交互自然，对真人（中之人）的身体素质有一定要求，而后者不需要真人持续在线，但交互略显僵硬需要在训练过程中反复调整。

    图源：《Rec Room》
    早期由于技术的限制，为了遵循虚拟形象设计在VR中的可行性，多数VR社交游戏的虚拟形象无法得到全身追踪支持，而目前已有包括《Rec Room》《VRChat》在内的VR游戏，从官方层面为玩家提供个性化展示的机会，《Horizon Worlds》也已宣布支持虚拟化身腿部显示。相关阅读：《让虚拟化身的“肢体语言”更真实？全身动捕的IK优化是关键》
    目前动捕技术已足够成熟，然而不同的场景对动捕的精度要求不一，专业的动捕演员需要身着特定的动捕服，在特定的场地里完成动作捕捉。

    图源：Quitasueño Studio
    使用专业设备的成本非常高，据悉市面上的一些专业动捕品牌例如OptiTrack、Vicon和Xsens等解决方案大多在几千美元到几万美元不等。一套专业的动捕方案包含设备本身（传感器、服装、基站、电脑等），以及定制的软件，再加上维护成本，对普通人来说难以承受。国内也有不少可提供专业动捕解决方案的企业，例如诺亦腾、度量科技、聚力维度、青瞳视觉等。

    一些面向消费端的便携式动捕方案（图源：VR陀螺整理）
    高性价比的便携式动捕方案越来越多，slimeVR、Tundra Tracker、AprilTag、Amethyst、HaritoraX、Rebocap等等，为想在《VRChat》体验全身动捕的玩家以及有直播动捕需求的用户提供便利，无论预算限制、动捕效果需求如何，用户都能选到适合自己的产品。
    其中VIVE自定位追踪器和索尼的mocopi均在2024年面向国内发售，VR陀螺也曾评测过mocopi的产品。相关阅读：《评测丨一键成为虚拟偶像？索尼mocopi会是新的动捕黑科技吗？》
    陀螺君还注意到，从玩家社区的开源动捕方案到HTC、索尼这些大厂提供的动捕方案，最后的落脚点都会集中在《VRChat》这一游戏场景上。SteamDB的数据显示《VRChat》的日活玩家（24小时高峰）大概有2.5万人，而MMO STARS预估《VRChat》的总玩家数量可能有820万人左右。
    随着玩家的虚拟角色的可动性和灵活性上升，《VRChat》还与不少企业和团队展开合作推出了各种活动，包括，虚拟展会、虚拟服装、虚拟演出、品牌方的官方虚拟商店等等，由HIKKY举办的“Virtual Market 2023”夏季展会，总参观人数超过120万人次。《VRChat》的背后，或许还有更多数字人与虚拟空间、虚拟资产相关的商业潜力有待发掘。 AI数字人：投石问路，走向多模态
    如今AI的能力越发强大，提供“一站式”功能，包揽数字人的创建到驱动，甚至是内容生成板块。但在这个领域，其实也能看到不少有趣的应用场景。相关阅读：《AIGC重塑数字人：落地、变革、永生》
    AI创作型歌手Anna Indiana于2023年底出现，最早发布的视频中，其生成的歌词讲述Anna坐在咖啡馆里，想到小镇上充满了破碎的梦想和绝望的尖叫，表示想拆掉这座小镇。歌词传达了她对小镇的失望和痛苦。不料歌没有引起网友的共鸣，而是饱受批评。而她展示的内容包括Key、节奏、和弦、旋律、歌词，以及形象和歌声全由AI生成，依旧令人感到新奇。

    另外，Twitch和YouTube平台相加拥有近70万粉丝的AI VTuber“Neuro-sama”展示了她的快速反应和学习能力和超强的模仿能力。

    “Neuro-sama”关于电车难题的回答（图源：b站@單推的DD烤肉）
    Wiki页面介绍道：Neuro-sama由程序员暨人工智能开发人员Jack Vedal（在直播间会以乌龟的形象出现）创造，他通过结合AI玩游戏和计算机生成的虚拟人物之间的交互来构建AI Vtuber。Neuro-sama能够即时与观众交流，该系统使用一个大语言模型（LLM），其对话内容由AI生成。
    Neuro-sama能够模仿人类的语调和对话内容，尽管还存在不少缺陷，Neuro-sama也会作出负面回答，但开发者将其区分为另一个“evil”人格，合理化了AI的负面应答。但若是作为聊天助手，她一改常见的冷静理性的AI语调，证明了一个经过多次调试，亲切“拟人”的AI也能够给人们带来切实情感共鸣。
    生成式AI的流行已经带火了AI数字人，其以迅雷不及掩耳之势，袭卷业务助手、直播带货、教育培训、虚拟陪伴等各个领域。另外也能满足商业用途，通过AI一键生成内容，实现企业业务上的降本增效。相关阅读：《30天揽金5千万，AI数字人能否成为普通人的「财富密码」？》
    此前小红书博主“johnhuu 教英语”发布的一条视频引起海内外的社交媒体纷纷刷屏转发。视频中将泰勒·斯威夫特、特朗普、艾玛·沃特森和“憨豆先生”的演员罗温·艾金森的原声视频通过AI技术翻译内容并转化成与本人声音相似的普通话，并同步修改口型生成新的视频。
    AI大模型在各行各业得以应用，如今更是将战场延伸到了教育领域中的口语学习板块。这些AI数字人形象各异，全天候在线，打开聊天窗口就能开始交流。基于对话式AI和LLM大语言模型的能力再结合语音识别和生动的虚拟图像不仅能提供口语表达反馈，纠正语法错误，不同类型的AI数字人还能在不同领域带来有趣的讨论。

    图源：VR陀螺
    AI数字人视频生成工具将生活记录、课堂记录、演讲片段等视频转化成各种语言的版本，实现无语言障碍的流畅观看，已经能够满足人们在日常生活中的使用。相关阅读：《以假乱真？AI数字人+外语学习功能让用户“相见恨晚”》
    大语言模型是AI的一块重要拼图，AI生文之后，这条赛道又迅速迈向新的一站：AI文生图、AI文生视频等等……目前这些AI应用的场景难以大范围落地，难点在于AI对算力的高要求、多技术整合，以及对训练数据的把控，但核心还是会回到成本问题，现阶段AI数字人仍集中在某个单一垂直领域的应用，若能进一步优化成本，相信未来通过与数字人对话交流，由AI赋能它们生成文字、图片、视频也不无可能，交互能力将得到重塑。结语
    2024年，数字人相关行业是否能再见曙光？
    麦肯锡表示，像OpenAI的ChatGPT这样的深度学习算法在经过企业数据的进一步训练后，每年可在63个业务用例中创造相当于2.6万亿至4.4万亿美元的价值。AI技术的快速迭代意味着市场竞争之激烈，似乎催促着各行各业的数字人尽快靠上AI。
    将不可见的AI与可见的数字人相结合，有望逐步打通产业链的“任督二脉”，但其应用最终都会回归数字人与人类的交流，也离不开最底层的技术支撑，AI令单一的数字人有了“千人千面”的特性，形象、交互能力、行为动作都在向人类靠近。

    图源：英伟达
    英伟达率先发力，于CES 2024上正式推出NVIDIA ACE（Avatar Cloud Engine）微服务技术，可让游戏、工具和中间件开发者将先进的生成式AI模型，加入到游戏和应用的虚拟数字人物里。据悉，现已开始采用ACE的开发商有Convai，Charisma.AI，Inworld，米哈游，网易游戏，掌趣科技，腾讯游戏，育碧和UneeQ。相关阅读：《英特尔、迪士尼都关注的Inworld AI，正为虚拟NPC带来生命力》
    当下数字经济高速发展，AI技术进一步助推企业数字化转型，而拥有AIGC能力的数字人正朝着多模态的方向前进，其强大的学习能力、连接庞大的知识库以及高效的信息提炼能力，将改变人机交互模式。数字人相关技术稳步发展，待成本问题以及应用落地问题得到解决，AI数字人将迎来爆发期。而在爆发前夜，企业唯有把握先机，方能占据优势。