基于深度神经网络，AI百度地图突破自身局限

2024.05.12 智能相对论

    在人机交互不再满足于“听”时，“说”的环节变得尤为重要，“怎么说”、“谁来说”成了关键按钮。
    而目前语音产品赛道逐渐进入了常规化模式，邀请明星出声也成为了基本操作，相比传统的机械式AI声音，真人语音无论是在效果还是情感方面都是无可比拟的，再加上明星效应，用户的体验效果将来得更加直观。
    12月24日，百度地图官方宣布汤唯正式签约代言人，同时上线“汤唯导航语音”。在“说”的领域，百度地图这款“新一代人工智能地图”又迈出了一步。
    从语音导航到汤唯定制语音，百度地图“AI＋女神”到底进化了什么
    传统语音导航，是单调无聊的，定制语音将其变为了过去式。拥有汤唯的柔美声音作为导航，在体验上有什么差别？当“前方路段交通拥挤，请小心驾驶”变成“前方行驶缓慢，慢慢欣赏路上风景”，会不会觉得这才是“人性化”服务？
    1、摆脱中性，汤唯带给我们的不只是女神之声
    很多人会问，一定要给AI加上性别吗？不，AI不一定需要性别，但语音最好有。
    以往我们听到的AI语音都是机械式的声音，是“中性”或者说是“无性”的声音，带来的问题也很直接，就是太冰冷、没个性。之前也有说到，目前个性化、表现力正是语音合成所追求的方向之一，所以百度地图带来的汤唯语音也就不止是一款语音那么简单。可以说汤唯语音从一个功能点体现出结合了人工智能的百度地图正在变得越来越强大。
    声音具有和视觉传达一样很强的感染力，甚至有时，以声音为主的交互会带来更好的沉浸感。
    并且语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。所涉及的技术也更加复杂，百度地图就是利用其深度神经网络技术、深度学习技术，再结合车内应用场景进行打造。例如百度语音合成系统采用的全深度学习的框架，是在语音合成领域首次采用全深度学习框架，实现了语言合成上的个性化、口语化。
    2、语音算法模型让机器人性化
    女神汤唯之所以能完成高质量的语音包，语音合成技术功不可没，在庞大的道路信息和交通数据之下，谁也无法通过直录的方式通通记录，这时就需要靠语音系统来支撑。
    以汤唯语音包来说，就是先录制汤唯声音特点的第一手资料，录制的语句包含一些常见的导航提示语句和一些覆盖到常见的中文发音的句子。
    其实无论语音还是文字，在计算机看来都是数字化的，语音合成模型的任务就是要建立这两组数字之间的关系，通过一系列的计算，将文本的输入转化为语音的输出。首先需要建立一个神经网络的模型，去学习汤唯录制的语音和录音文字之间的映射关系，就好比让一个不会发音的孩子学汤唯说话。而在合成时，它就可以读取导航语句，并大声朗读出来了。
    AI浪潮之下，语言合成才是语音技术的高地
    使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场，不过大家的注意力多集中在语音合成之外。
    1、差点被忽略的“黄金”场景
    目前，语音技术的应用多为了语音唤醒和交互，在智能硬件和软件上都有很多典型应用——智能音箱、智能电视、智能扫地机器人、百度地图、百度输入法等等。但不可否认的是，智能硬件的侧重仍在于“语音识别”，对于“语音合成”的应用有，可还不够深。
    语音合成本是把文本经一系列计算处理后输出对应音频，通过机械的、电子的方法产生人造语音技术。因为完美的人机交互体验无法忽略“说”的环节，所以语音合成的重要性日益凸显。
    从早期的机械化语音合成开始发展至今，语音合成的应用场景也经历了较大的转变，以前语音合成应用都是在相对单调的场景，现在应用场景更加复杂，对于语音合成技术的要求自然变得更高。
    例如，在有声读物方面，用户需求越来越个性化，单调的机械声已经完全不够；在机场、车站广播等服务行业，需要的是温柔、甜美的音质；在办事机构、窗口机关又需要严谨、有力的声音。而百度地图上线汤唯语音，也是给在路上的用户更加磁性、知性的嗓音。
    在外部，车内空间显然是一块“宝地”，车内空间的交互可以说是市场刚需，截止到2018年9月，全国机动车保有量已经达到了3．22亿辆，机动车驾驶人数超过了4亿人，交互价值巨大。
    百度地图等加速车内空间交互，是将传统的“室内交互”做了外延，给百度带来的也不仅仅是用户层面的拓宽，更体现出百度搜索之外的野心。
    2、技术上，语音合成一直是语音技术的高山和壁垒
    语音合成可以说是人工智能的“嘴”，是人机交互的基础，一个没有“嘴”的人工智能何谈什么交互？
    就现阶段而言，语音识别已经不再是语音技术的关键问题，很多产品的语音识别率都到达了95％以上。但在语音生成上，能让机器说的话与人类说出来的话相近依旧很难，即便是一些简单的词组，你我也能一耳就听出是机器合成的还是真人播报。
    如果将语音合成技术拆解，可以分为文本分析、韵律分析和声学分析三个部分，每一个部分都是技术难点。首先需要对文本进行解析，对文本的语言、字符进行分析，提取出文本特征；接着在文本信息的基础上，要判断文本信息字符间奏、长度、频率等多种特征；然后通过声学模型实现从前端参数到语音参数的映射，最后通过声码器合成语音。
    而且，目前主流的语音合成方法为统计参数语音合成和波形拼接的语音合成，统计参数语音合成由前端文本分析、统计参数模型和声码器三个部分组成，对语料库的时长要求较低且在合成目标波形时具有较高灵活性，但重建出来的语音比较机械，缺乏自然度。主要为声码器在对语音信号建模时舍弃了语音细节，合成的语音相比原始语音丢失部分信息。
    而百度地图采用的百度语音合成系统，可以将很多模块用深度神经网络去实现，有效解决了使用统计参数合成时所带来的问题。
    波形拼接的语音合成不使用声码器，直接通过拼接原始录制语音片段来合成目标语音，相比参数法，合成的语音更加自然真实。由于直接面向语料库操作，故对语料时长和基元种类具有较高要求。
    当然，当语音流畅度达到人们预期时，也并不是完结，音质、自然度和情感等要素也依旧需要攻克。
    就拿汉语语音合成来说，目前在单字和词组一级上，合成语音的可懂度和自然度已基本解决，但是到句子乃至篇章一级时其自然度问题就比较大。
    比如，国内外大多数语音合成研究是针对文语转换系统，且只能解决以某种朗读风格将书面语言转换成口语输出，缺乏不同年龄、性别特征及语气、语速的表现，更不用说赋予个人的感情色彩。
    3、比起听得清和听得懂，“说得好”要求的是更懂人
    正如上文所提到过的，目前大部分产品的语音识别率都达到了95％以上，却无法像人类一样表达，其根本原因就是还“不懂人”。
    何为“懂人”？我们人与人之间可以从对方的音量、声调、语速、用词等方面听懂对方的要求、情绪、心情、状态，这就是所谓的“懂人”。
    说得直白点就是“情感表达”，这是目前而言语音合成技术需要攻克的关键要素。
    想要达成这一目标，针对普通生活场景的语音合成是提高情感表达的最佳方式。目前使用语音合成技术播报下天气或者阅读简讯，无疑能合成出完美的语音，但遇到生活化的场景，或者在特定氛围之下，语音合成的效果就会降低很多。一方面由于系统对韵律信息的捕获不准确，另一方面由于生成的声学参数存在误差。当语音合成可以完美消化各类生活化的语境时，其应用场景将得到极大的拓宽。
    另外，在语音合成的应用中，大多都是单人、单语言、单语音，如何能由单变多也是语音合成应用中的一大困扰。在“3单”语境的限制下，语言合成技术难以完成应用突破，而目前一些解决“3单”语境的解决方案也不够完美，或多或少都存在瑕疵，并且也没有足够的语料素材来进行支撑。
    如何使计算机算法能够自适应技术实现任意说话人、不同风格的高质量语音合成，如何充分挖掘不同语言的发音空间，在语料受限条件下实现多语言语音合成，也是语音合成现阶段的一大挑战。
    百度地图在深度神经网络技术的支撑下，已经开始对“3单”语境作出反应，并已收到成效，百度语音合成开始支持中文英文混读，可以提供数十种不同音色，更支持语速、音调、音量设置。这些技术活功能上的增加，无疑将给语音合成带来更加广阔的想象空间。
    近年来，在语音技术行业中开始流行一句话：“得语音合成者得天下”，百度地图此时牵手国民女神，导航语音全量上线似乎也在卡这个时间点。


    1  2  下一页>