阿里巴巴达摩院推出AI语音识别模型：对全球开源

2024.03.29

    随着技术的发展，在原来的图形交互之上，语音交互也越来越多地出现，最常见或者容易接触到的如手机／PC上的语音助手，更进一步的就是不少观点认为的未来智能家居中枢的智能音箱。
    在语音交互上，语音识别则是最基本也是最核心的一项技术。
    近日，阿里巴巴达摩院机器智能实验室语音识别团队，推出了新一代语音识别模型——DFSMN，不仅被谷歌等国外巨头在论文中重点引用，更将全球语音识别准确率纪录提升至96．04％（基于世界最大的免费语音识别数据库LibriSpeech）。
    另外，该团队同时宣布，即日起向全世界企业与个人开源DFSMN模型，使全球开发者都能共享这一成果。
    西北工业大学教授谢磊表示：“阿里此次开源的DFSMN模型，在语音识别准确率上的稳定提升是突破性的。是近年来深度学习在语音识别领域最具代表性的成果之一。对全球学术界和AI技术应用都有巨大影响。”
    ▲阿里在GitHub平台上开源了自主研发的DFSMN语音识别模型