看科技巨头如何抢滩语音识别技术

2022.11.05

    摘要：AI语音交互产业的风口已至？
    引言
    在过去的半个月中，国内人工智能领域的融资消息几乎被AI语音交互抢占，智能语音交互系统研发商蛙声科技获得天使轮融资，远望资本投资；图灵机器人完成3．5亿元B＋轮融资，投资方为中一资本、前海梧桐并购基金；语音技术提供商思必驰宣布完成D轮5亿元融资，由元禾控股、中国民生投资集团领投，深创投、富士康、联发科跟投。这是否意味着继亚马逊、谷歌、苹果等国际科技巨头在AI语音交互战略热潮后，国内以中文为基础的AI语音交互产业的风口已经到来？
    一、智能语音技术成果显著，商业化落地初具规模、市场潜力如何？
    AI语音交互技术的落地需要有扎实的语音识别技术、强大的语言处理能力及准确的数据支撑。搭载了语音交互系统的智能硬件，便是物联网时代呈现，而智能硬件生态圈的布局也是实现场景化应用的重要因素。
    继Siri、 GoogleNow、Cortana及Alexa的智能语音逐步达到成熟的应用阶段后，智能语音正在以最自然的交互方式潜移默化地改变着我们的生活。
    随着AI技术的不断深入，智能语音的应用范围也在不断拓展。无论是教育、医疗、客服、电信等传统行业，还是智能家居、移动互联网、汽车电子终端、智能机器人、智能客服等新兴领域，智能语音早已成为百搭标配，语音功能也几乎成为了“智能”的代名词。在巨大的潜在市场面前，国内企业诸如科大讯飞、思必驰、云知声、捷通华声、百度等公司在智能家居、智能车载、智能可穿戴等领域都已积极入局。
    二、AI加持下的语音交互技术现有水平到底怎样？
    在智能语音进阶的过程中，“先让机器听到、听懂、反馈，再让机器思考、沟通、决策”是诸多智能语音企业的愿景，而技术实力则是实现该愿景的第一话语权。
    方象知产研究院基于AI语音交互技术现有水平进行分析归纳总结（见表一），对表中的关键核心技术进行分析发现，就技术通路而言，AI语音交互技术囊括了一条完整的人工智能路径。一套完整的AI语音交互系统需要不同层次的技术支撑，除了需要具备AI大脑感知、AI大脑认知及AI大脑决策三个层面，还要具备语音识别、自然语言处理及语音合成三大模块，其中蕴含着语音识别（ASR）、语义理解（NLU）、自然语言生成（NLG）及语音合成（TTS）四项关键核心技术。

    表一：AI语音交互技术现状解析
    方象知产研究院整理
    据统计，语音识别技术、自然语言处理技术及语音合成技术的全球专利申请量呈逐年上升趋势。2017年各项技术的全球申请量分别约为400项、130项及22项，其中申请主体主要集中在苹果、微软、谷歌及百度等公司。在产业化过程中，感知、认知和智能决策是三个不断深化发展的过程，目前AI语音交互技术正在经历从感知智能、向认知智能的飞跃。
    三、技术价值角度解析技术前景、发展趋势及投资分散点在哪里？
    AI语音交互能够完成怎样的独有任务并体现其价值呢？基于上述分析，方象知产研究院认为，持续的数据积累与技术升级是AI语音交互未来发展的趋势，更加智能与流畅的技术实现、快速便捷地达成指令、隐私安全性的保障等都是尚需突破的技术关键点。
    AI语音交互需要在具体的应用场景中高效、便捷地解决人机交互需求才能产生价值，合适的语音入口是关键。智能音箱、智能电视、家庭机器人、车载场景、可穿戴设备等都有可能成为AI语音交互技术的关键应用场景，也会是当前积极布局AI语音交互的科技巨头们的必争之地。