注入AI的灵魂后,数字人将成为所有人的“门户”

阿尔法工场
PC时代,门户是一个个网页;移动互联网时代,变成了一个个APP、公众号、短视频;在AI时代,则是经过大模型强化后的数字人。

    自古以来,人类就有着对自我影像的追求和渴望。影像是人类的延伸、记忆,也是人类的表达。
    过去的两百多年里,人类为了留住自我的影像,创造了各种手段和工具。从最初的画像,到后来的摄像机,再到今天的数字人,都是人类为了留住画像,解放人类的躯体,而进行一次次技术革新。
    
    尽管数字人从诞生那天起,就一直在试图模仿和复制真实的人类,但由于时代的局限,以往的数字人,离人们想象中那栩栩如生的形象,总是差了点气候,
    其在商业上的应用,也总是难免被人视作“鸡肋”。
    然而,AI时代的到来,似乎为这一曾经“聊胜于无”的技术,注入了新的灵魂。凭借愈发逼真的形象,数字人开始在更多的场景、行业中进行赋能。
    
    01 “前浪”艰难探索
    很多人在谈到数字人的过去时,往往都会陷入一个误区,认为最初的数字人仅仅是个被炒起来的概念,是个像VR那样,看似潜力无限,实则可有可无的“鸡肋”。
    实际上,这样的看法,忽略了一个重要的现实,那就是:
    在数字人诞生的早期,不是人们没有对数字人的需求,而是当时的技术、成本,根本满足不了这样的需求。
    具体来说,早期的数字人,主要存在着成本高昂、技术标准不统一、形象难以与真人媲美等缺陷。
    据国内领先的数字人企业风平智能介绍,在数字人处于2D卡通时代时,虽然也有部分企业,出于营销时增加新奇感的需要,订购了一些数字人,但其中99%的数字人,在订购之后半年就再无人问津。
    究其原因,是当时数字人的成本太高,而应用场景却又太窄了。
    
    试想一下,花费数十万制作出来的卡通数字人,除了在部分需要增加“新奇感”的应用场景外,还能用在什么地方呢?
    你不能指望人们在上课、开会或讲座这些严肃的场景里,看着一个卡通形象滔滔不绝吧?
    后来,虽然随着技术的进步,数字人的形象开始逐渐朝着写实、3D的方向发展,可居高不下的成本,仍然让许多企业望而却步。
    一般来说,数字人的制作主要包括了数据采集、处理和应用等方面,而根据数据处理的复杂度和效率,以及数据应用的规模和质量的不同,一个3D化的写实数字人,成本可达到数十万到百万元不等。
    这还是剔除了后期运营成本的情况下。
    以抖音美妆达人“柳夜熙”为例,其制作企业创壹科技CEO梁子康曾对媒体表示,“柳夜熙”仅制作投入就在百万元级别,而第一条“柳夜熙”的短视频成本约几十万元。超写实虚拟人视频每秒的成本都在万元区间。
    
    因为想要让数字人“动”起来,就需要让AI驱动数字人的语音表达、 面部表情、动作生成等等,这都是巨大的投入。
    而花费了如此巨大的数字人,最后还是只能局限在娱乐、直播、内容IP等领域;
    这是因为,当时的数字人,交互能力还不够强大和智能,无法理解复杂语境、也无法处理多轮对话,导致用户的沟通和服务效率很低。
    即便有的数字人,可以通过真人的方式驱动,可这类数字人的交互能力,也要受限于真人操作者的水平和风格,这使其很难满足不同用户和场景的多元化需求。
    因此,只有在娱乐、直播等更加看重“门面”和“颜值”的场景中,数字人才能占据一席之地。
    然而,所有这一切的限制,都随着当今AI革命的到来,而被纷纷打破了。
    02 成本暴降、井喷来临
    2020年,随着元宇宙概念的火热,市场对于提高数字人生产效率和提升商业化的诉求日益高涨。同时,5G、AI等新技术更新换代,也让数字人得到了焕发新生的机会。
    其中几项关键的技术,让数字人极大地提升了与真人的接近度。
    例如,人像驱动引擎,可以通过4D扫描、智能绑定等AI技术,实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,同时减少动作捕捉、CG合成的制作流程,大幅降低了成本。
    而智能对话引擎,通过自然语言处理技术,为数字人快速定制对话能力、持续提升对话效果。
    这些技术,让数字人在表现力、智慧度、交互能力上都得到了大幅提升。
    
    也就是在这一阶段,包括百度、腾讯在内的国内各大企业,开始在数字人领域八仙过海,各显神通。
    例如,百度推出的曦灵数字人平台,通过自然语言处理、语音识别、计算机视觉等技术的提升,让数字人在视觉表现力上有了显著提升。
    虽然形象仍然是3D人物,但从五官细节,神态动作等方面,都明显在朝着更写实的方向进行发展。
    
    以前需要两三个月时间做出来的3D数字人,现在可以压缩到小时级。
    同时,通过在线语音交互注意力模型,数字人也终于变得“音画同步”了,逐字口型准确率达到了98.5%。
    而得益于新一代数字更生动的表现力,曦灵平台推出的数字人,也从单一的娱乐领域,扩展到了更多元的行业。例如在2B端担任数字理财专员、数字客服、虚拟培训师等角色,或是新闻播报员等。
    
    腾讯在数字人方面,也发布了智能小样本数智人生产平台。
    腾讯方面称,该平台可实现“自助式”数智人生产制作,只需经过3分钟真人口播视频、100句语音素材的训练,便可在输入音频、文本等多模态数据后,实时建模并生成高清人像,在24小时内制作出与真人近似的“数智人”,其使用成本也将被降至千元级别。
    可以说是BAT三巨头中,最早实现真人级数字人的企业。
    
    小样本“数智人”从直观上感受是2D视频,但背后其实是3D人像技术在支撑。通过3D人脸结构的先验信息引入,使数智人口型、表情更到位,让小样本“数智人”形象实现“皱纹级”还原。
    
    除了百度、腾讯这些大厂外,一些默默耕耘于数字人垂直赛道的企业,也凭借日益精湛的技术,打造出了更逼真和生动的数字人。
    在数字人领域钻研已久的风平智能,就是一个这样的代表。
    其独特的XGen智造系统,和丰富、可定制的知识库,在低成本高质量生产数字人的同时,还能使每一个数字人都拥有独一无二的“智能大脑”。从而扩展了其多元化的场景应用能力。
    
    同时,通过深度学习技术建模,风平智能的数字人还能支持129种语种,实现了跨国互动无障碍的交流。其制造的数字人,已应用在了新东方的课堂直播中。
    在这一阶段,数字人所呈现出的总体趋势,是制作成本的大幅度下降,以及表现力的突飞猛进。
    而这些技术进步,所带来的直接的后果,就是数字人技术的不断下沉和趋同。
    03 当AI的灵魂注入数字人
    从概念提出到场景落地,AIGC加持下的数字人,已经从原先几十万、上百万的制作成本,数个月的制作周期,降低到了现在数千元,十几个小时的制作门槛。
    数字人的应用场景,早已从单一的B端逐渐向C端扩散。而这样的扩散,必将会重塑人类信息的输出端口。
    纵观数字时代的每一次变革,人类信息的输出端口,一直在不停变化。
    在传统的PC时代,这样的端口是屏幕上的一个个网页;
    到了移动互联网时代,这样的端口则变成了一个个APP;
    自媒体兴起后,这样的端口又变成了一个个公众号、短视频;
    而在AIGC时代,经过AI大模型强化后的数字人,则注定会拥有以往各类端口所不具备的知识量和交互能力。
    到了那一天,也许人类真的会像比尔盖茨所说的那样:“再也不会去使用搜索引擎,不会去生产力网站,也不会再去使用亚马逊。”
    
    在盖茨的设想中,这个“AI助理”将有能力理解人类的需求和习惯,同时会帮助人类“读他们没有时间读的书。”
    如此一来,AI加持下的数字人,就成为了人类更终极、更先进的输出端口。
    此外,在每一具数字生成的皮囊下,人们仍能看到不一样的灵魂。
    这也是今天GPT-4等先进的大模型,与数字人进行结合的最大意义。
    
    通过大模型丰富的知识,纯熟的语义理解和交互能力,和相应行业、个人不同的需求,每一个数字人,都可以“因地制宜”、“因人制宜”地幻化出各种不同性格、思想和技能,进而真正做到了“千人千面”的效果。
    由此可见,在必将到来的AGI时代,真正决定数字人高下的,就是其独一无二的灵魂。