AI，开启数字人3.0时代

2024.03.24 鞭牛士

    作者｜顾砚
    2021年开始元宇宙概念火爆，数字人市场也持续升温。
    去年10月，虚拟美妆达人柳叶熙在抖音上传了自己的第一条作品，一夜间涨粉百万；年末，出道9年的洛天依登上春晚舞台，与月亮姐姐、王源共同表演少儿歌舞《听我说》；今年5月，虚拟偶像Vox宣布入驻B站，首日直播营收就破百万……
    根据《虚拟数字人深度产业报告》，预计到2030年我国虚拟人整体市场规模将达到2700亿元。
    虚拟数字人最早可追溯到2007年，彼时，以语音合成程序为基础开发的音源库“初音未来”，成为首个现象级虚拟偶像。
    此后一段时间，虚拟数字人也多以二次元的形象出现。2D“纸片人”，是1．0阶段的数字人代表。
    2016年6月，人工智能绊爱“唤醒自我”，她是YouTube上一个虚拟主播。如今，虚拟主播热潮已经席卷全球。
    据艾媒咨询发布的《2021中国虚拟偶像行业发展及网民调查研究报告》，2020年中国虚拟偶像核心产业规模为34．6亿元，预计2021年将达到62．2亿元。
    “皮套人”，是2．0阶段的数字人代表，他们依赖模型、动捕，也依赖“中之人”的表演，为数字人赋予灵魂。
    去年6月，由小冰公司推出的华智冰亮相并进入清华大学计算机系知识工程实验室。作为AI学生，华智冰的旁白、背景音乐、面容、诗词以及绘画作品，均基于AI技术生成。
    今年6月7日，全网热议高考作文《本手、妙手、俗手》难度之际，百度AI数字人度晓晓40秒创作了40多篇文章，平均1秒生成1篇，随机抽取其中一篇，被语文名师申怡评为48分（满分60分），其分数已赶超约75％高考考生。

    由AI驱动，数字人进化到3．0时代。
    AI数字人能做什么？
    在商汤科技发布的《AI数字人：数字经济发展新动能》白皮书中将数字人按照进化程度分为5类（L1－L5），并指出“L4 的AI数字人可以从大量的人类对话、面部表情和肢体语言中学习。它可以通过自然的面部表情和肢体动作来实现智能的类人交互”。
    这意味着，AI数字人将不依赖“中之人”，完全由AI驱动。它不仅是具有数字化外形的虚拟人物，拥有人的外观、人的行为之外，还拥有人的思想，具有识别外界环境、并能与人交流互动。
    换言之，AI数字人才是元宇宙中的“原住民”。
    完成这一转变的核心在于对“深度学习能力”的重视。
    深度学习能力即机器学习的一种，需要用大量的数据“喂养”白纸一样的机器人，直到他们能听懂并回答客户的问题。
    这是一个需要数据、算法、算力结合，不断训练、调整、打磨模型的长期过程，但一旦核心技术实现突破，AI数字人的优势和应用领域将更加多元。
    比如度晓晓，除了能创作高考作文，还能AI绘画、创作歌曲，还曾作为工人日报特派“AI记者”，采访五一劳模等等。而另一百度AI数字人希加加，她同样会作画、写诗、作曲、说多国语言、还能实时直播。
    除了能“像人一样”学习、沟通、工作，AI数字人将拥有超强的创造力，颠覆现有的内容生产模式。
    AIGC，是指人工智能自动生成内容，这是AI领域目前的热门概念之一，它将颠覆现有的内容生产模式。
    基于这项技术，度晓晓在挑战高考语文作文时，可以做到平均1秒1篇，画一幅画，只需要几十秒。与人类生产效率相比，这是指数级的提升。
    而这一切，源于百度搜索引擎海量数据的先天优势、产业级深度学习平台飞桨和产业级“知识增强”大模型文心。
    百度自2019年开始便深耕预训练模型研发，成功打造飞桨文心大模型家族。文心系列模型具备“知识增强”的核心特色，基于持续学习的语义理解框架，从大规模知识和海量数据中融合学习。
    比如，数字人画画能力，使用的是文心大模型——跨模态图文生成模型ERNIE－ViLG；而人对话能力，使用的是对话生成大模型——文心 PLATO，PLATO有接近真人水平的对话能力，对话效果已经达到世界领先水平。

    另一方面，凭借深度学习能力，处于较高发展水平的数字人可以快速从各种场景中获取知识，成为特定领域的“专家”。
    AI数字人可以深入B端领域，实现降本增效。比如科大讯飞推出智医助理；商汤科技AI数字人出现在医院场景中，为患者进行分诊导诊；百度和浦发银行打造的“数字员工”小浦，每月为46万人提供金融服务。
    头部互联网企业早已加入构建数字人技术的浪潮之下。目前，华为、百度、阿里、腾讯、字节跳动等，都已着手于数字人的开发应用。
    “数字人自由”
    未来，AI数字人可以承担更多的工作和责任，但目前来看，AI数字人的大规模落地依然面临各种挑战。
    首先，AI深度学习是一场长期且价格高昂的训练。比如，一个简单的模型调整，可能要增加百倍以上的计算资源。而谷歌子公司 DeepMind 训练AlphaGo下围棋时，估计耗资3500万美元。
    另外，如何优化算法来提升效率与稳定性，如何提高机器学习与深度神经网络预测的准确度等，也是 AI 技术面临的挑战。而无法自主学习、无法互动的数字人，也就失去了AI的灵魂。
    其次，AI数字人也会使用动作捕捉采集表情／动作数据、CG技术合成，这需要庞大的开发制作和设备运维成本。
    36氪此前报道，一场全息虚拟演唱会的成本大概在 2000 万上下。腾讯NExT Studios团队也进一步印证该观点，“一个超写实虚拟数字人形象恐怕至少要投入100至200万制作费用才能不至羞于见人，甚至即便投入了也未必能做出令人满意的角色”。
    另一方面，合格数字人的制作周期也非常长。数字人一分钟视频，可能需要2到3个月时间制作。
    天风证券研报也指出虚拟数字人行业生存及运营成本高昂的发展难题，报告认为，未来很长一段时间，降本增效将会是企业的重点。
    随着技术的推进，AI数字人也在不断突破。
    5年前，百度在AI开发者大会上喊出“All in AI”的口号；如今，百度已经打造了一个“AI数字人家族”，度晓晓、希加加、文夭夭……这背后，正是百度智能云曦灵数字人平台，通过全场景、平台化的能力为企业和品牌提供数字人的制作和运营服务。
    近日，度晓晓在《2022虚拟数字人商业价值潜力》榜单中排名第一；在第三方机构发布的榜单中，百度因为语音、视觉等AI能力的积累，在数字人综合实力方面排名第一。
    在日前“2022百度世界大会”媒体预沟通会上，百度集团副总裁袁佛玉介绍：“随着百度AI算法的突破，我们能让数字人制作成本十倍、百倍地下降，还能让数字人生产周期，从动辄几个月，缩短到小时级别。”
    降低AI应用门槛，驱动AI规模化落地应用，是百度文心大模型的核心价值。
    今年4月，2021百度认知AI创意赛“AI创意派”决赛正式举行，这是业内首次将先进的AI大模型能力开放给公众使用。
    “只有门槛低到了所有人都可方便地用起来，才能真正大规模爆发出各种创意。”百度集团副总裁吴甜称。
    目前，文心大模型已大规模应用于搜索、信息流、智能音箱等互联网产品，并通过飞桨开源开放平台、百度智能云赋能工业、能源、金融、通信、媒体、教育等各行各业。
    现在，我们可以在多个场景看见百度AI数字人的身影：
    在2022年的北京冬奥会上，百度AI手语主播根据真人主播的声音和画面，实时转换为手语，24小时无休；今年5月文博虚拟宣推官“文夭夭”正式持证上岗，为各大博物馆提供讲解、导览、直播等服务；度晓晓不仅可以“陪聊”——接近真人水平的多轮流畅对话，并在对话中识别用户的搜索、服务类需求。
    早在2019年，李彦宏就预测，在旅游咨询、医疗健康、移动通讯等领域，数字人都将大显身手，“每个人都会有一个甚至多个专属的数字人为你服务，相信这个时代很快就会到来”。
    近期IDC发布的报告显示，中国AI数字人市场规模呈现高速增长趋势，预计到2026年将达102．4亿元人民币。
    而这一切都源于百度对AI领域压强式、马拉松式的研发投入，公开数据显示，在研发投入方面，2021年百度核心研发费用221亿元，占百度核心收入比例达23％，研发投入强度位列中国民营企业500强第一位。
    巨头涌入、热钱涌动，坚持长期主义的企业，将会在数字人3．0时代，迎来回报期。
    此内容为鞭牛士原创，未经授权不得转载