语音技术的发展及主要技术厂商盘点

2022.11.06

在1952年的贝尔研究所，Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。

    大规模的语音识别研究始于上世纪70年代以后，并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后，语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。
    同时，语音识别在研究思路上也发生了重大变化，由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外，业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。
    上世纪90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。比如，DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划，旨在支持语言理解系统的研究开发工作。进入上世纪90年代，DARPA计划仍在持续进行中，其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。
    我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制，中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年，中国科学院声学所开始了计算机语音识别。
    进入上世纪80年代以来，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下，国内许多单位纷纷投入到这项研究工作中去。
    1986年，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在“863”计划的支持下，中国开始组织语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。自此，我国语音识别技术进入了一个新的发展阶段。
    自2009年以来，借助机器学习领域深度学习研究的发展以及大数据语料的积累，语音识别技术得到突飞猛进的发展。
    将机器学习领域深度学习研究引入到语音识别声学模型训练，使用带RBM预训练的多层神经网络，提高了声学模型的准确率。在此方面，微软公司的研究人员率先取得了突破性进展，他们使用深层神经网络模型（DNN）后，语音识别错误率降低了30%，是近20年来语音识别技术方面最快的进步。
    2009年前后，大多主流的语音识别解码器已经采用基于有限状态机（WFST）的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，提高了解码的速度，为语音识别的实时应用提供了基础。
    随着互联网的快速发展，以及手机等移动终端的普及应用，可以从多个渠道获取大量文本或语音方面的语料，这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能。
    在语音识别中，训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一，但是语料的标注和分析需要长期的积累和沉淀，随着大数据时代的来临，大规模语料资源的积累将提到战略高度。
    现如今，语音识别在移动终端上的应用最为火热，语音对话机器人、语音助手、互动工具等层出不穷，许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用，目的是通过语音交互的新颖和便利模式迅速占领客户群。（雨田整理）相关产品 siri
    Siri技术来源于美国国防部高级研究规划局所公布的CALO计划：一个让军方简化处理一些繁复庶务，并具学习、组织以及认知能力的数字助理，其所衍生出来的民用版软件Siri虚拟个人助理。
    Siri成立于2007年，最初是以文字聊天服务为主，随后通过与语音识别厂商Nuance合作，Siri实现了语音识别功能。2010年，Siri被苹果以2亿美金收购。
    Siri成为苹果公司在其产品iPhone和iPad Air上应用的一项语音控制功能。Siri可以令iPhone和iPad Air变身为一台智能化机器人。Siri支持自然语言输入，并且可以调用系统自带的天气预报、日程安排、搜索资料等应用，还能够不断学习新的声音和语调，提供对话式的应答。
    Google Now
    Google Now是谷歌随安卓4.1系统同时推出的一款应用，它可以了解用户的各种习惯和正在进行的动作，并利用所了解的资料来为用户提供相关信息。
    今年3月24日，谷歌宣布Google Now语音服务正式登陆Windows和Mac桌面版Chrome浏览器。
    Google Now的应用会更加方便用户收取电子邮件，当你接收到新邮件时，它就会自动弹出以便你查看。Google Now还推出了步行和行车里程记录功能，这个计步器功能可通过Android设备的传感器来统计用户每月行驶的里程，包括步行和骑自行车的路程。
    此外，Google Now增加了一些旅游和娱乐特色功能，包括：汽车租赁、演唱会门票和通勤共享方面的卡片；公共交通和电视节目的卡片进行改善，这些卡片现在可以听音识别音乐和节目信息；用户可以为新媒体节目的开播设定搜索提醒，同时还可以接收实时NCAA（美国大学体育协会）橄榄球比分。
    百度语音
    百度语音一般指百度语音搜索，是百度公司为广大互联网用户提供的一种基于语音的搜索服务，用户可以使用多种客户端发起语音搜索，服务器端根据用户的发出的语音请求，进行语音识别然后将检索结果反馈给用户。
    百度语音搜索不仅提供一般的通用语音搜索服务，还有针对地图用户制定的特色搜索服务，后续还会有更多的个性化搜索和识别服务出现。
    目前百度语音搜索以移动客户端为主要平台，内嵌于百度的其他产品中，比如掌上百度，百度手机地图等，用户可以在使用这些客户端产品的同时体验语音搜索，支持全部主流的手机操作系统。
    微软Cortana
    Cortana是Windows Phone平台下的虚拟语音助手，由游戏《光晕》中Cortana的声优Jen Taylor配音，Cortana中文版又名“微软小娜”。
    微软对Cortana的描述为“你手机上的私人助手，为你提供设置日历项、建议、进程等更多帮助”，它能够和你之间进行交互，并且尽可能的模拟人的说话语气和思考方式跟你进行交流。此外圆形的图标按钮会随着你手机的主题进行调整，如果说你设置了绿色的主题，那么Cortana就是绿色的图标。
    此外，你能够通过开始屏幕或者设备上的搜索按钮来呼出Cortana，Cortana采用一问一答的方式，它只有在你咨询它的时候才会显示足够多的信息。