OpenAI再发大招推出Voice Engine！让失语者发声只需要15秒音频...

2024.04.02 新火种

作者：小岩
    编辑：彩云
    许久没有新动作的OpenAI最近显得颇为低调。但事实上，对于这些卷的不能再卷的AI头部公司而言，没有人是敢躺平的。大家不是在发布新品，就是在研发新品的路上。
    3月30日，OpenAI宣布推出全新的人工智能模型——Voice Engine。这并非是一个全新的模型，事实上，自2022年开始，OpenAI便默默布局，开展了对于该模型的研发工作。
    工作原理简单而高效！能够驾驭合成声音所带来的挑战和机遇。
    对于这款最新发布的模型，OpenAI官方推特的措辞异常小心而谨慎，它表示，“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会”。事实上，Voice Eengine所呈现出来的工作效率的确是简单而高效的。

    Voive Engine最大的特点在于语音克隆。其中的工作原理很简单：用户仅需通过电话或电脑麦克风录制一段15秒的声音片段，OpenAI的语音引擎便能生成“与其声音高度相似的自然语音”。在此之后，无论是面对什么样的文本，它都能以近乎完美的克隆声音进行朗读。
    这项技术的问世，显然会对那些经常录制自己语音的人，诸如播客，配音艺术家，口语表演者，有声书和广告解说员，游戏玩家，流媒体主播，客户服务代理，销售人员等众多职业产生重大影响。
    除此之外，OpenAI还特别强调了语音引擎在支持非语言个体方面的独特能力。它能为这些个体提供个性化的，非机械化的声音，为那些有语言障碍或学习需求的人提供治疗和教育方面的帮助。

    一旦技术得以成行，Voice Engine不仅能实现更真实的人声复刻，更重要的是，它还能适用于各种场景的应用，诸如为孩童朗读故事，企业产品介绍，医疗咨询服务，为语言障碍者提供帮助等。它不仅支持多种语言，更能模仿出不同的语调和情感，应用不可谓不广泛。
    Voice Engine由来已久，相关应用早已有之。
    正如我们前文所提到的那样，早在 2022 年底，OpenAI 便开发了 Voice Engine 并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 语音和朗读。所以，在展望Voice Engine未来可能产生的广泛应用场景之前，我们不妨看看它曾经有过哪些实用案例。
    首先，Voice Engine可以通过自然，富有感情的声音为非阅读者和儿童提供阅读帮助。这些声音不是呆板的预设声音，它代表了更广泛的说话者。譬如一家名为Age of Learning 的教育技术公司就一直在使用 Voice Engine 生成预设的画外音（voice-over）内容。他们还利用 Voice Engine 和 GPT-4 创建实时且个性化的回应，从而与学生进行互动。

    其次，Voice Engine可以翻译视频和播客等方面的内容。通过使用Voice Engine，创作者和企业可以用自己的声音流利地向世界各地更多的人进行传播。据悉，HeyGen便是这方面的早期应用者之一。HeyGen是一个人工智能视觉故事平台，通过使用 Voice Engine 进行视频翻译，将演讲者的声音翻译成多种语言，从而覆盖全球受众。值得一提的是，即便是翻译，Voice Engine也会保留原说话者的母语口音，譬如带有法语口音的英语等。

    此外，Voice Engine可以为不会说话的人群提供支持：为患有影响语言的疾病的人群提供治疗应用；为有学习需求的人群提供教育增强功能等。譬如它能够为不会说话的人群提供多种语言的独特非机器人语音。用户可以选择最能代表自己的语音，对于多语种用户，它也能使每种口语都保持一致的语音。
    担心合成技术可能会被滥用，暂时没有完全公开的计划。
    尽管语音生成式AI被认为是OpenAI的又一次巨大突破，但很显然，官方并不急于向外界完全公开Voice Engine。究其原因，主要是因为合成语音技术具有巨大的风险，很可能会被滥用。特别是最近一段时期，由合成语音引发的电信诈骗，版权侵害等社会风险问题层出不穷，这些都是OpenAI做出“暂不公开”选择的重要原因。OpenAI也表示，在开发的过程中，一直在与政府，媒体，教育等社会各界的美国和国际合作伙伴接触，保证听取和采纳反馈。特别当下这处于美国大选时期，OpenAI又正与政府和外部企业合作，势必会采取必要的安全措施和谨慎的态度。
    无独有偶，OpenAI于2月推出了视频生成AI“Sora”也同样未对外界公开。面对生成式AI技术日益普及所引发的滥用风险，OpenAI对商用化明显采取了较审慎的态度，以确保安全和负责任的使用。

    当然，我们无法否认，生成式AI的潜力是无穷的，终究要有落地应用的一天。相较于始终保持“审慎开放”，乃至“拒绝开放”的态度，我们莫不如提前做好评估和防范。譬如要逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施；教育公众了解AI技术的能力和局限性,包括存在欺骗性AI内容的可能性；加快开发和采用追踪视听内容来源的技术,以便随时明确您是与真人还是与AI互动等举措，都是势在必行的。无论OpenAI是否会广泛部署这项技术，我们大家都要了解它的发展方向。
    最后，我们再来讨论一个问题：在生成式AI领域，OpenAI是否依旧领跑？
    从2022年便孵化出了Voice Engine这一点来看，OpenAI是早就开始布局合成语音这一赛道了。从某种程度上说，现在分享的最早期版本很可能只是在小秀肌肉，内部应该已经完成了强力迭代。而且，根据The Information的独家报道，微软和OpenAI将合力打造一台成本高达1000亿美元，拥有数百万个GPU的超级计算机“Stargate （星门）”。它将为OpenAI的人工智能提供巨大的动力和算力会，不夸张的说，照比现在微软给OpenAI的支持直接提升几个量级。
    此外，从OpenAI通篇官宣文来看，OpenAI不会在短期内向公众推出合成语音领域的更新了，毕竟这个赛道日趋敏感。这或许是出于重塑企业形象和公信力的需要。未来我们或许可以期待OpenAI将Sora和Voice Engine以怎样的模式集成到下一代 GPT。一旦这样的GPT得以成行，OpenAI在生成式领域的霸主地位将不可动摇。