一文读懂崛起的虚拟人：发展历史、应用前景和面临的问题

2024.05.15 元宇宙之道

    来源：经济观察报观察家
    作者：陈永伟
    原标题：《崛起的虚拟人：历史、应用和问题》
    几年前，一位出版社的朋友邀我为一部关于人工智能的新书写推荐语。我欣然应允，但朋友看到我交的“作业”后却并不满意，给我打来电话说：“我找你给科普书写推荐，你是不是把给恐怖小说写的推荐给我们了？你看看你都写的啥：有一天，你可能会发现自己的同事不是人……”
    如果说，几年前的那段推荐语只是我玩的一个梗，那么今天这个梗就已经变成了现实。去年年底，万科董事长郁亮在朋友圈发了一条消息，祝贺一位名叫崔筱盼的员工获得了2021年万科总部最佳新人奖。这位“崔筱盼”其实并不是人类，而是一名虚拟人。也就是说，对于万科的很多员工来讲，“自己的同事不是人”已经是一个现实了。
    万科并不是唯一一家“雇佣”虚拟人作为员工的企业。比如，不久前阿里巴巴就对外公布了虚拟人员工Ayayi入职的消息，而在更早的时候，腾讯的虚拟偶像男团“无限王者团”早已担负起了为公司宣传的工作，还顺手拿下了一个“年度游戏歌曲新势力奖”。当然，虚拟人的就业目标也并不局限于企业单位，比如，一名叫小诤的虚拟人就入职了新华社，而虚拟人罗峰则选择了中国航天十二院。除此之外，更多虚拟人则选择了灵活就业。比如，虚拟人柳夜熙就在抖音当起了网红，而虚拟人翎Ling则在小红书出道，还给口红做起了广告。一时之间，虚拟人可谓如雨后春笋般出现，并迅速进入了各行各业。
    虚拟人究竟是什么
    对于虚拟人这个名词，目前的定义还是非常模糊的。普林斯顿大学的学者大卫·博登（David Burden）和伍斯特大学的麦基·沙文巴登（Maggi Savin-Baden）曾经合著过一部《虚拟人：今天与明天》（Virtual Humans：Today and Tomorrow）。在这部书中，两位学者将“那些可以在计算机屏幕上看到、通过扬声器听到或是以其他方式访问的类人虚拟角色”都定义为虚拟人。作为人类的模仿者，虚拟人具有与人类类似的外形和结构，可以表现出某些类似人类的行为，如言语、手势和动作等，其中的一些虚拟人还可能具有情绪、同理心、逻辑推理能力等更高层次的人类特征。如果按照博登和沙文巴登的这个定义，那么各种科幻电影那样有人形，会和人类一样思考、活动的生化人是虚拟人；存在显示屏上可以闻其声、见其影的崔筱盼、Ayayi和柳夜熙们是虚拟人；那些躲在智能音箱里只闻其声不见其人的Siri、Alexa和小度们也是虚拟人。
    不过，在现在的各种讨论中，虚拟人的概念应该没有上述的那么广。在大多数情况下，人们理解的虚拟人主要是那些以数字形象存在的类人个体，而不包含实体的机器人，或者只能用声音进行交互的AI。
    当然，即使按照这样的理解，虚拟人涵盖的范围依然很大。从形象上，我们可以看到，有一部分虚拟人的长相和真人十分类似，被称为超写实虚拟人，而另一些的虚拟人则是以卡通的形象出现的。比如，Ayayi、柳夜熙等虚拟人就属于前一类型，而著名的虚拟歌手初音未来、虚拟偶像洛天依、《中国诗词大会》上的“小小提问官”班长小艾则属于后一类型。从运作机制上看，虚拟人之间的差别更是十分巨大。一些虚拟人是由人工智能驱动，直接与人交互的，比如万科的“最佳员工”崔筱盼就属于这一类型；而更多的虚拟人则是通过操作人员，也就是俗称的“中之人”来进行操控的。从这个意义上讲，即使我们选择了相对狭义的虚拟人概念，它本质上依然是一个众多概念组合而成的复合体。
    从小众到普及：一段虚拟人的简史
    尝试在计算机上制造虚拟人的努力可以追溯到上世纪80年代。不过，当时的虚拟人并不是用来作为偶像，而是主要用于医学或具体用途。更具体的说，它们主要是代替真人来进行一些实验，尤其是一些具有危险或破坏性的实验。例如，在医学研究中，研究者们需要知道大量失水会对人的身体造成怎样的影响。从理论上讲，要知道这个结论，最好的办法就是找人来做实验。不过，这显然是非人道的，在现实中不可能被批准。因此，一个替代的办法就是在电脑上用虚拟人来模拟这个过程。基于这种应用目的，这个时候的虚拟人关注的主要是对于人体内部结构的复刻，其制作的要点是对身体的器官进行数字孪生，至于虚拟人的颜值则基本不用在乎。
    当然，这种类型的虚拟人的数量注定不会多。由于它需要对人体进行精准复刻，所以对建模的要求非常高，成本也相当不菲。更为重要的是，由于每个人的身体结构都是类似的，所以只要制作出一个典型的虚拟人，就可以将其复制并应用到各种相关的用途当中去。因此，人们只需要针对不同的性别、人种造出少量的这种虚拟人，就可以很好地满足所有应用的需要。
    到了本世纪初，虚拟人的用途逐渐从科学实验用品转向了民用，而人们对虚拟人的关注重点也从“内在”转向了“外在”。例如，在2007年诞生的虚拟歌姬初音未来就是这个时期最为出名的虚拟人，其本人的热度甚至超过了很多一线歌手，并一直持续到了今天。
    这里需要指出的是，在我查阅有关虚拟人的文献时，发现不同文献对于初音未来的描述有所差异。一些文献认为，初音未来是虚拟偶像的始祖，而另一些文献则认为，虚拟偶像的历史可以追溯到上世纪80年代。事实上，这两种说法本质上是不矛盾的。确实，早在上世纪80年代，就有不少虚拟的偶像出现了。例如，英国的虚拟主持人Max Headroom，以及从日本动画片《超时空要塞》中走出的虚拟歌手林明美，就是两个重要的代表。不过，这些虚拟偶像都不是由计算机程序生成的——Max Headroom其实是人扮演的，而林明美则是用传统的动画制作方式制作的，也就是所谓的“纸片人”，这些都和现代意义上的虚拟偶像相差甚远。如果要论数字化的虚拟偶像，那么初音未来或许就真的是最早的。
    不过，即使在初音未来爆红之后，虚拟人总体来讲依然是一个稀罕物。一直到最近几年，这个概念才慢慢被人接受。而在去年，虚拟人产业终于迎来了期待已久的爆发。
    虚拟人之所以在多年之后才迎来巨大的发展，其原因固然有很多方面，不过在所有原因中，最为重要的还是技术以及由此带来的成本。现在的虚拟人，主要是由计算机制图，也就是所谓的CG技术制作的。每一个虚拟人的制作，都需要经过建模、贴图、渲染等过程。在建模阶段，制作者先要通过对真人演员的形体及动作进行取点采样，然后做成相应的模型。而在取点采样的过程中，往往需要对演员进行大量的跟踪拍摄，其过程非常繁琐。在有了模型之后，制作者就需要对模型进行贴图。这个过程有点类似于对工艺品进行上色，所不同的是由于虚拟人最终是要运动的，因此它对于上色的要求会比静态的工艺品更高。在贴图完成之后，就需要对完成的模型进行渲染，让模型和它上面的贴图完美融合，并根据环境的变化进行相应的调整。为了渲染效果更为理想，就需要有强大的计算能力作为支持。这样一整套下来，一个虚拟人的制作成本就会相当高。
    在过去几年中，随着技术的发展，虚拟人的制作门槛则出现了大幅的下降。比如，就在去年，Epic Games就公布了一款基于虚幻引擎（Unreal Engine）的虚拟人制作应用MetaHuman Creator。这款应用大幅度简化了虚拟人的制作流程，并提供了大量相关的制作模板，这使得制作一个超写实虚拟人的时间从原本的几个月缩短到了几个小时。而在虚拟人制作完成之后，人们更是可以通过简单地修改参数来改变它的外观。现在，MetaHuman Creator已经生产了一些虚拟形象，比如阿里的那位新员工Ayayi就是由这个应用生产的。当然，MetaHuman Creator并不是现在唯一的虚拟人制作工具。包括英伟达在内的很多企业也几乎在同一时间推出了自己的虚拟人解决方案。依托于这些工具，虚拟人的制作时间和成本就可以被有效地降下来。这种供给效率的改进，是让虚拟人在近期火爆的最关键因素。
    除了供给因素之外，一些需求端的因素也加速了虚拟人市场的崛起：
    第一个因素是元宇宙概念的普及。很多人都将2021年叫做“元宇宙元年”。虽然大多数人到现在也未必能搞明白所谓的元宇宙究竟为何物，但在各路宣传的狂轰滥炸之下，人们对于虚拟的3D事物的接受程度却已经大幅提高。在这样的背景下，打着“元宇宙中的人”的旗号的虚拟人也就更容易获得市场的认可了。
    另一个因素是部分艺人形象的意外崩塌。整个2021年，国内外娱乐圈的“大瓜”可谓是一个接一个。这些不断爆出的“大瓜”在给人们送去大量谈资的同时，却让请明星做代言的广大企业非常头疼。怎么回避这种风险呢？一个好办法就是找一个虚拟的形象作为代言。而这一块巨大需求的崛起，也成为了虚拟人市场兴起的一个重要助推力量。
    具体到我国，在供需因素的影响之外，政策层面的因素也是不可忽略的。比如，在2021年10月国家广播电视总局发布的《广播电视和网络视听“ 十四五”科技发展规划》就提出了要推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目，创新节目形态。类似政策上的鼓励为虚拟人的发展提供了很好的示范和指导作用。
    正是在供给、需求，以及政策等多方面因素的共同作用之下，虚拟人才从一个十分小众的产品迅速变成了一个爆红的新兴产业。
    虚拟人的应用前景
    应该说，虚拟人的应用前景和商业价值都是十分可观的。根据资讯公司量子位发布的《虚拟数字人深度产业报告》，到2030年，我国虚拟数字人整体市场规模将达2700亿元。而国际市场研究机构Research And Markets则预测，预计到2028年,全球虚拟活动市场规模将达到5047.6亿美元（约32707.44亿元），与虚拟人有关的虚拟活动市场规模正在不断扩大。当然，虚拟人市场的成长也不会是一蹴而就的，它在很大程度上还要受制于技术、成本，以及政策等各方面条件的限制。
    在现阶段，由于虚拟人的制作成本还相对较高，所以虚拟人的运营主体主要还是在一些规模较大的企业主体手中。对应的，目前虚拟人的主要用途也集中在虚拟演员、虚拟偶像、虚拟形象代言等“高大上”的领域，其自身的IP属性会非常突出。
    随着技术的进一步发展和虚拟人制作成本的不断降低，更多去IP化的功能性虚拟人会随之出现。到这个阶段，虚拟人的应用就会超出影视、演艺等行业，真正做到“飞入寻常百姓家”。到了那个时候，很多需要与人进行交互的领域都可能会有虚拟人的身影。举例来说，现在的很多购物网站上都有智能客服。在现阶段，智能客服都只是一个简单的AI程序，虽然它可以和用户进行交流，但却很容易给人留下一个冷冰冰的形象。而如果在这个领域引入了虚拟人，给AI套上一个具体的形象，那么就可以很有效地改善用户的体验，也可以避免很多不必要的矛盾。同样的，在车载导航、智能助手等领域，也可以引入虚拟人的角色，从而让交互的感觉变得更好。
    如果元宇宙的发展可以如很多评论所预言的那么迅速的话，那么元宇宙将可能会成为未来虚拟人最为重要的一个应用场景。在这个虚拟的世界中，每个人都需要以一个数字化身的形式存在，这种数字化身本质上就是一个虚拟人。单考虑这一点，虚拟人的需求就会异常庞大。而且，除了真人的数字化身之外，元宇宙里面还需要很多用来活跃气氛，或者提供服务的NPC角色，这些角色也需要用虚拟人来担任。因此，综合来看，在元宇宙中，虚拟人的“人口”总量甚至可能会超过用户的“人口”数。
    正是由于虚拟人在元宇宙中可能有如此大的潜力，所以一些“大厂”已经开始悄悄地推广量产的虚拟人，为元宇宙的市场进行布局了。比如，只要大家稍加注意，就会发现QQ在最新的更新中已经搭载了虚幻引擎。正如我们前面指出的，虚幻引擎是虚拟人制作应用MetaHuman Creator所依托的主要引擎，而QQ只是一款社交软件，为什么要搭载容量庞大、功能强悍的虚幻引擎呢？其原因之一，就是要对QQ的“厘米秀”进行更好的渲染，将它们打造成一个立体感更强的虚拟人。联想到QQ本身就是一个庞大的游戏链接入口，带有很强的元宇宙元素，因此这个“厘米秀”很可能就会成为玩家在QQ元宇宙中的数字化身形象。
    这里值得一提的是，受技术和制作工艺的影响，虚拟人基本上属于专业生产内容（Professional Generated Content，简称PGC）。它们需要由专门的制作团队，或者厂商进行生产。但随着制作技术的普及化，由用户自行设计和生产的虚拟人将会不断增加，这时用户生产内容（User Generated Content），也就是所谓的UGC就会成为虚拟人市场不可忽略的一部分。而这种UGC的生产和交换，将会形成一个极为庞大的市场。如果有了NFT等工具的加持，这个市场的想象空间将可能更为巨大，或许可以催生出现在我们难以想象的很多新用途。
    如果我们将眼光投射到更为长远的未来，那么虚拟人的应用潜力就会更为巨大。比如，它或许可以用来成为人类永生的载体。事实上，现在很多人已经提出了类似的畅想。比如，美国知名生物制药公司联合治疗公司创始人兼CEO玛蒂娜·罗斯布拉特（Martine Rothblatt）就曾经写过一部畅销书讨论通过将意识复制到虚拟人来实现永生的可能性，以及由此可能造成的问题。不过，从现阶段看，要复制人类意识的技术问题依然没有解决，因此这个应用总体上还停留在幻想阶段。
    虚拟人发展中的一些问题
    虽然从一个相对长期的视角看，虚拟人的应用前景是十分广阔的，但我们也必须看到，在虚拟人的发展过程中，还会遇到很多的问题。要想让这个产业获得长足的发展，就必须对这些问题作出妥善的应对。
    首先是技术上的问题。正如我们前面所强调的，虚拟人的产业之所以能在当前爆火，很大程度上是技术进步推动的，而这个产业在未来到底能走多远，归根到底也将是技术，以及受技术所影响的成本所决定的。
    作为技术的复合体，虚拟人所涉及到的技术比较多。像计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术都会在制作或操作的过程中涉及。而要让这些技术得到充分的展示，更要有充足的算力、通畅的通讯传输等作为保证，因而对基础设施也提出了很大的要求。这些技术的研发，以及基础设施的建设，固然要主要依靠企业的力量。但在一些关键的领域，政府也必须发挥其作用。尤其是对于一些成本特别高，一般企业难以提供的基础设施。当然，与此相比，政府的另一个更重要任务是做好相关标准的制定和协调工作。现在，各企业都分别对相关的技术有所研发，这些技术的标准本身未必是统一的，不同技术方案之间的互通也存在着一些困难。如果纯粹依靠市场的磨合，要解决这个问题，可能会需要很长时间，而如果有了政府的相关引导，就可以将这个过程缩短很多。
    其次是要为虚拟人可能引发的一些法律问题做好准备。与虚拟人相关的法律问题可能有很多，从现在看，比较值得关注的可能有三个方面：
    一是肖像权问题。在很多虚拟人的设计中，都或多或少地参考了一些名人的形象，由此就可能引发与肖像权相关的纠纷。事实上，在虚拟人出现前，类似的问题就已经出现了。比如，女星凡娜·怀特（Vanna White）就曾起诉了三星公司，起诉的原因是三星广告中的一个机器人形象酷似自己。最终，这个官司以怀特胜诉而告终。这个案件或许对不少虚拟人的制作者提出了警告——如果他们设计的虚拟人在形象上与某人意外撞脸，就可能卷入一场与肖像权相关的官司。
    二是利用虚拟人进行诈骗等刑事犯罪的问题。现在的各类AI电话诈骗已经令人防不胜防，如果再给这些诈骗加上一个虚拟人的形象，那可真就真假莫辨了。如何提防类似的问题，将会是一个十分重大的挑战。
    三是与知识产权相关的问题。在虚拟人的制作中，可能涉及的知识产权问题是很多的：
    其一是涉及对名人或已故名人表演的版权问题。现在的不少虚拟人，都是根据名人或已故名人的形象制作，并模仿他们来进行表演的。例如，不久前在江苏卫视跨年晚会上出现的虚拟人邓丽君，就是照着著名歌星邓丽君生前的样貌制作，并完全按照邓丽君的表演风格进行演出的。由于其形象过于逼真，不少观众在观看了表演之后甚至惊呼这简直是让邓丽君复生了。这种惟妙惟肖的模仿也牵出了一个棘手的问题，那就是这个虚拟邓丽君的表演究竟是否构成《著作权法》所保护的作品？关于这个问题，反对和支持的都有各自的道理。反对的人认为，虚拟人邓丽君用的是邓丽君的形象，声音、表情、动作都是模仿邓丽君的，这样又怎么可以称得上是一个独创性的作品呢？即使要保护著作权，也应该是保护歌手邓丽君的。而支持的人则认为，虚拟人的表演本身并不是对歌手表演的简单复刻，而是一种再创作。尤其是在很多场合下，虚拟人还会和真人互动或合作演出，这就完全是一种独立的表演了。因此，对于类似的表演，就应该给予相应的版权保护。目前，尽管支持和反对的双方都各有道理，但是法律上依然缺乏一个明确的答案。
    其二是虚拟人IP持有方与虚拟人运营方的版权利益分配问题。正如我们前面所说的，现在的很多虚拟人都是具有IP属性的，从某种意义上讲，它们的属性十分类似于一些艺人——它们的IP会隶属于某个经纪公司（可能是其制作方，也可能不是）旗下，并承接各种演出。而在这个过程中，虚拟人也会和真人一样，产生利益的冲突。只不过，这个时候，利益的冲突更多会以一种知识产权纠纷的形式表现出来，因为虚拟人IP本身和其演出都是一种知识产权。
    其三是虚拟人制作模板相关的知识产权问题。如前所述，随着制作引擎和应用的出现，虚拟人制作模板也开始大规模面世。有了这些模板，使用者只需要在模板基础上进行一些修改就可以生成自己需要的虚拟人形象。这种模板化的操作固然给人带来了便利，但也产生了可能的知识产权纠纷，例如如果制作的虚拟人获利了，那么模板的提供者是否可以获得相应报酬？如果是，分成比例应该如何确定？这些问题都是有待回答的。
    再次是就业问题。既然虚拟人可以代替人完成这么多的工作，那么被顶替下来的人不就丢了饭碗了吗？由此就有可能引发广泛的失业。对于这个问题，现在已经有一些学者开始关注了。在我看来，这个问题至少在最近几年应该还不会这么严重。理由很简单，现在的虚拟人在人工智能方面一般都比较弱，基本属于有多少人工，才有多少智能。如前所述，它们的各种动作、神态，以及与人的互动行为都是由“中之人”在背后操控的。由于操控虚拟人非常复杂，因此一般来说，一个虚拟人背后需要一个“中之人”团队来进行支援。正是由于这样的原因，现阶段的虚拟人依然属于经济学意义上的“就业互补技术”，而非“就业替代技术”。至少在最近几年，虚拟人的普及更可能是会增加就业，而不是减少就业的。
    但是，我们也必须承认，从长远来看，虚拟人冲击就业应该是一个大概率事件。让一个“中之人”团队来服务一个虚拟人，这样的成本实在是太高了，出于节约成本的考虑，人们一定会进一步加大对于人工智能技术的研究。一旦相关的技术取得了突破，使得人们可以以一个相对较低的成本将高质量的AI应用到虚拟人的身上，那么“中之人”们的饭碗就有可能面临威胁。到时候如何面临这一切，就会是一个十分现实的问题。