打造未来人机交互新通道，AI语音合成还需趋利避害

2024.04.09

    如今，随着新一代科技革命和产业变革的到来，人工智能技术愈发受到了越来越多国家和企业的青睐。今年以来，我国连续第三次将人工智能写入政府工作报告之中，且提出“智能＋新概念”；国内35所高校成功建设人工智能相关专业和学院；以及人社部等三部门发布人工智能有关新职业，无不推动了人工智能建设的提速发展。
    而作为人工智能重要分支之一，AI语音技术也在这样积极向上的大环境中迎来了快速崛起。目前，除了传统意义上的AI语音识别、AI语音服务等之外，全球又诞生出了AI语音合成、AI语音辨人等新突破和新应用。其中，AI语音合成由于在应用上的“善恶难定”，更是引发了人们的广泛关注和争议。
    AI语音合成技术发展迅猛
    众所周知，交流和交互的方式有很多种，比如语言、文字、图像、动作等等。在人机交互方面，从上世纪70年代开始，人类便在不断探索最便捷、最自然的交流方式，不管是计算机时代的键盘打字，还是智能手机时代的触摸屏，都是对应时代的潮流创新式探索。而如今，显然轮到了AI语音技术。
    据了解，语音交互对人机语音通信的作用主要依赖两方面技术，其一是语音识别技术，其二便是语音合成技术。和语音识别相比，目前语音合成的技术相对说来要成熟一些，并已开始向产业化方向成功迈进，大规模应用指日可待。不过，AI与语音合成的融合发展尚处于起步探索阶段。
    在此过程中，以科大讯飞、阿里、百度、搜狗、谷歌等为代表的一大批先进科技企业，都在助推AI语音合成技术的稳步突破。
    比如2018年，谷歌便隆重推出了一款AI语音合成器，作为其机器学习云工具套件的一部分，该合成器能满足任何开发人员和企业的语音合成需求。此外，今年阿里达摩院也再度秀出了新型的AI语音合成技术，不仅定制成本降低了10倍，同时能够让企业与个人定制其专属“AI声音”。
    总的来说，在各大科技巨头的加速布局与持续突破下，目前AI语音合成在技术上已经取得了不小成果，商业化应用探索也开始逐步启动，发展速度令人咋舌。未来，随着应用的日渐成熟，产品大规模进入市场，AI语音技术走进人们的日常生产和生活指日可待。
    现实生活中应用愈发广泛
    那么，AI语音合成技术，到底能在哪些领域获得应用呢？
    从当前来看，AI语音合成能落地的领域着实不少，比如影视娱乐、汽车行业、销售服务行业等等。其中，在影视娱乐方面，2017年以来我国已经利用AI语音合成技术打造了《创新中国》等极具创新性的节目，由人工智能合成配音的纪录片打破了人们的固有印象，原来除了指令语和提示音，AI加语音还能够合成出如此惟妙惟肖的自然声音。
    与此同时，我国还利用AI语音合成让那些曾经美好但却已逝去的声音重返人间。2016年的百度世界大会上，百度大脑便利用情感语音合成技术再现了港星张国荣的声音，让观众与已在天堂的“哥哥”来了场“隔空对话”。此外，央视也通过人工智能技术模拟《焦点访谈》主播员李易嗓音，让人听后好评如潮。
    而在汽车行业，在人们听惯了一众林志玲、郭德纲等导航的声音之后，AI语音合成技术无疑带来了更多的选择。就像阿里推出的新一代语音合成技术KAN－TTS，将其应用到汽车导航之中，人们便能够获得独一无二定制化的导航提示声音，这进一步丰富了大家的出行体验和生活趣味性。
    除此之外，利用AI语音合成的声音应用在客服、教育、销售等方面，都能大大提高用户体验和人机交互感受。由此可见，AI语音合成的确大有用武之地！
    行善or作恶引发人们争议
    当然，作为一项刚刚兴起缺乏监管的创新性技术，其负面应用也有不少，比如有人借助该技术进行诈骗，也有人利用该技术进行恶搞．．．．．．这些应用不仅侵犯了人们的名誉和财产，同时也危害了大家的隐私和信息安全，令人倍感烦恼。
    行善还是作恶？这一问题困扰着人们对于AI语音合成应用的看法。
    但其实，就像硬币有两面、利剑有双刃一样，任何技术都有善恶之用，关键在于使用的人和是否有良好的监管。基于此，AI语音合成技术也是这样，只有培养了人们对技术的正确认识，加强了对技术研发和应用的完善监管，才能让该技术趋利避害、实现善用。
    今年4月份，政府在《民法典人格权编（草案）》里加了这样一条规定：任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权。也就是说，政府对于AI语音合成技术的监管正在变得完善。
    而未来，随着更加明确规范AI新产品和应用的专项法律的陆续出台，AI语音合成的应用可能将变得更加向善行善，我们对此满怀期待！