语音识别技术发展渐入佳境 AI企业奋力前行

2024.03.26

    物联网时代，语音识别被视作为人机交互的入口，人工智能和机器学习的迅猛发展，使语音控制变得更为实用。虽然语音识别与生物识别相比，发展相对缓慢，但是学术界和工业界对于语音市场都很看好，这意味着未来发展空间十分巨大。
    据中国语音产业联盟发布的《2017－2018中国智能语音产业白皮书》显示，2014年至2018年，中国智能语音产业规模由30亿元增长至159．7亿元，年平均增长率接近40％。不难发现，语音识别技术正在开启智能新时代，其中AI公司的力量不可忽视。
    AI语音芯片竞相涌现，产品落地战打响
    随着语音／声学以及人工智能技术的发展，语音已经被认为是下一代人机交互关键技术。埃森哲调研显示，有77％的受访中国消费者使用智能语音助手，对于独立智能语音助手的满意度达到97％，因而对其有着更高的期待，希望更多的设备与之实现集成，并保证更高的信息透明度。
    目前无论是智能音箱还是其他智能设备，更多的智能都是在云端来实现，但云端存在着语音交互时延的问题，对网络的需求限制了设备的使用空间，以及由此带来的数据与隐私危机。为了让设备使用场景不受局限，用户体验更好，端侧智能以成为一种趋势，语音AI芯片也随之而来。
    与国际科技巨头一样，中国的AI公司也在积极推出语音芯片，以支持智能音箱和其他语音助手设备，让语音信号解码、压缩和传输更加清晰、迅速，从而更好地提高语音识别能力，提升语音指令的用户体验。
    除了智能家居场景外，对以智能语音交互为核心业务的厂商来说，车载市场无疑是另一大领域。随着越来越多车载语音交互量产车的落地，未来车载芯片设计领域也必然会把语音交互功能作为一大重要板块进行集成。
    错词率不断降低，语音开放平台大放光彩
    语音识别的关键是基于大量样本数据的识别处理，国内大多数语音识别技术商都在平台化的方向上发力，以通过不同平台以及软硬件方面的数据和技术积累不断提高识别准确率。近年来，AI公司不断深耕行业，纷纷布局智能语音，取得炫目的成就，以人工智能四小龙中的依图与云从为例，便可窥见一斑：
    上榜CB Insights全球AI百强的依图科技，在中文语音识别技术上致力创新，成果斐然。2018年12月，在中文开源数据库AISHELL－2中，依图短语音听写的字错率（CER）仅为3．71％，大幅刷新现有纪录。依图还联合微软Azure推出依图语音开放平台，并携手华为发布“智能语音联合解决方案”，将依图的语音识别技术提供给广泛的第三方应用开发者，共同推动智能语音行业的进步。
    云从科技作为人工智能独角兽企业，在语音识别领域亦有不凡表现。2018年10月，云从科技在语音识别技术上取得重大突破，在全球大的开源语音识别数据集Librispeech上刷新了世界纪录，错词率（Worderrorrate，WER）降到了2．97％，将Librispeech的WER指标提升了25％，超过阿里、百度、约翰霍普金斯大学等企业及高校，大幅刷新原先记录，使得语音识别离更良好的交互体验越来越近。
    结语：如果说视觉是人获取信息的主要渠道，那么语音则是人输出信息的主要渠道。要实现更好的人工智能体验，“视觉＋语音＋语义”的复合型AI技术将缺一不可，尤其在人机交互场景中。相信随着智能语音技术步入黄金期，未来成熟化的语音产品将通过云平台和智能硬件平台快速实现商业化部署。