30分钟打造撒贝宁“孪生”AI主持人

2024.08.19

近日，观众欣喜地看到在央视网络春晚舞台上，撒贝宁有了个虚拟孪生兄弟“小小撒”，这是AI虚拟主持人首次上岗与原型同台秀技，这让小撒很是感慨——正在直面自己的未来职业危机。

    据透露，打造这样一个AI孪生主播，仅需约30分钟。那么，究竟其中有何奥妙之处？
    如同原型孪生般逼真
    是否见过，让撒贝宁“无话可说”的主持对手？
    只见，小小撒一出场，小撒就忍不住说：“我的天，感觉像照镜子一样。”甚至从外貌上看，直呼简直就是“失散多年的孪生兄弟”。
    而小小撒也并非花瓶摆设，很能掌控现场，妙语连珠，几乎不留余地。以至于一旁的小撒“委屈”地插话：“能给我说一句吗？”
    显然，与以前僵硬、机械形象的虚拟人技术相比，引入人工智能，按真人原型架构出的虚拟主持人，在技术上有了相当大的提升。
    “为了与真实的主持人有所区分，技术团队在形象设计上做了一定程度的变化。比如，这次可爱的‘小小撒’个头要高一点，更健谈些。”美国人工智能公司偶邦（ObEN）联合创始人郑毅向科技日报记者介绍说。
    当然，小小撒也并非独家打造，因为节目中除了虚拟孪生撒贝宁，其他主持人朱迅、高博、龙洋的孪生AI主持人也都纷纷亮相。
    本世纪初，英国广播公司发布第一个虚拟主持人Anaova之后，虚拟主持人成了一个科技研究热点。“能闻其声，也见其人”，今年网络春晚可谓是这一技术在国内首次大规模应用。
    用数据“喂养”长大
    常言道，“台上一分钟，台下十年功”。而此次培养虚拟主持人的过程却大大提速。
    记者了解到，打造这样一个AI虚拟孪生主播的技术叫作PAI（Personal AI），在20多项专利申请技术的支撑下，只需撒贝宁等主持人的面部扫描和半小时的录音数据，即可生成形象和声音模型。
    “在AI语音技术的基础上，无需主持人录入大量文本建立语音数据库。只需其较短的几十句标准原声，通过特征参数提取，利用迁移学习算法即可建立其独特发声模型。由此，任何输入的文字都可用主持人的声音读或唱出来，甚至能运用中日英韩四种语言。”郑毅说。
    据介绍，随着越来越多的数据“喂养”，小小撒在成长中会掌握更多技能，甚至包括小撒的喜好、说话方式等，在另一层面上与其更为相似。再加上动作捕捉训练，以及传感器及运动跟踪设备，更突显了原型主持人的个性化特色，大大增强辨识度。
    “现在的深度学习和机器学习，是在原有自动化规则上多了学习能力——自己发现规律。换言之，由于人类很难发现规律中的细节，而AI可通过大量训练让电脑学习去发现内在规律及细节。”华为人工智能算法工程师张侗冬告诉记者。在某种意义上，正如主持人朱迅所言，“通过数据载体的形式，跟真实世界亲密互动，我们实现了‘永生’。”
    从数字世界到人类世界的鸿沟
    未来的世界是平行的数据世界，社会的主角是人，数据世界的主角是数字化的人。那么，在人工智能时代，虚拟主持人有什么发展瓶颈？
    郑毅指出，“‘情感’是人类的专利。从语音模拟到语意模拟，虚拟主持人面临从数字世界到人类世界的鸿沟，尽管其在模仿音色、语速、停顿时都没问题，但是知道意思、怎么回答，却不理解感情内涵，要做到抑扬顿挫目前还很难。”
    据介绍，语意学习，虽然也有“兴奋”“悲伤”“着急”等情感模型，但在模拟过程中，虚拟主持人不能及时调动，需要人工参与。虚拟人仍然像个嗷嗷待哺的婴儿，人类如何孕育它成长，为其构筑怎样的世界观，将是未来深入探索的方向。
    郑毅表示，相信AI虚拟主持人不仅是一个技术产生到技术落地的过程，也是一个信任交接的过程。当初攻关虚拟主持人技术的一大初衷，是想通过主持人、明星这样有一定公信力人物的带动，增加人们对人工智能的信任。因为我们还处于技术成长阶段，而未来人与人工智能的相处也应从信任开始，例如未来像公务繁杂的职场人，如果拥有一个数字化的另一个自己，模拟自身意愿，便可代劳成为贴心助手，打理日常琐事，是不是会让生活省心很多？相信人工智能可以给我们带来更多生活便利，创造更好的生活。
    有业内人士评价说，今年网络春晚中AI应用的一小步，可能将会带来掀开虚拟主持人时代的一大步。“当然若虚拟人上岗，工资依然发给我们人类就好。”有人戏称。