智能语音助手会被方言打败？AI创企研究正在研究新的解决方案

2024.03.28 乐智网

    自从IBM的Shoebox和Worlds of Wonder的玩具娃娃Julie doll发布以来，语音识别技术一直在不断地发展。到2018年底，Google Assistant支持超过30种不同的语言。
    高通也开发了一款可以识别单词和短语的语音识别系统，其准确率高达95％。此外，微软的智能语音客服比人工呼叫服务更加准确高效。
    然而，尽管机器学习使语音识别技术的发展突飞猛进，如今这些语音识别系统还是不够完美，最严重的问题就是有地域歧视性。

    华盛顿邮报最近进行的一项研究结果显示，谷歌和亚马逊研发的流行智能语音助手识别非美国本地口音的准确率要比美国本地口音低30％。
    像IBM和微软这样的公司都会通过Switchboard语料库来降低语音助手的出错率。但是事实证明，语料库也无法彻底解决语音助手的口音识别问题。
    “数据是混乱的，因为数据反映了人性，”埃森哲的全球责任AI监理Rumman Chowdhury说，“这就是算法最擅长之处：寻求人类行为模式。”
    算法偏差表示机器学习模型对数据或者设计产生偏见的程度。很多新闻报道都对面部识别系统（尤其是亚马逊网络服务的图像识别Rekognition）产生了不小的偏见。
    而且，算法偏差还会出现在其他方面，比如预测被告是否会在未来犯罪的自动化系统以及谷歌新闻等app背后的内容推荐算法。
    微软以及包括IBM、高通和Facebook在内的AI行业领导者已经开发出自动化工具，用于检测并减少AI算法中产生的偏差，但很少有人能够提出口音识别问题的具体解决方案。
    真正提出解决方案的只有两家公司。一个是Speechmatics，另一个便是Nuance。
    解决口音差距问题
    Speechmetrics是一家专门研究企业语音识别软件的剑桥科技公司，它于12年前就开始实施了一项雄心勃勃的计划，旨在开发比市场上任何产品更准确全面的语言识别系统。
    该公司最初是研究统计语言建模和循环神经网络。它开发了一种可以处理内存输出序列的机器学习模型。2014年，它利用一个十亿字节的语料库加速其统计语言建模的发展，从此迈出了第一步。
    到了2017年，它又迈向了另一个里程碑：与卡塔尔计算研究所（QCRI）合作开发了阿拉伯语言文字转换服务。
    “我们已经发现我们需要开发一款语音识别系统，只需一种模式便能适用于所有语言，不再有口音问题，并且它识别澳大利亚口音的准确度和转录苏格兰口音一样高。”Speechmatics首席执行官Benedikt vonThüngen说。
    他们在今年七月成功研发了一款这样的语音识别系统Global English。它拥有40多个国家的数千小时的语音数据和数百亿单词，支持所有英语口音的语音文本转换功能。
    此外，Global English的建立还离不开Speechmatic的Automatic Linguist，这是一种人工智能框架，通过利用已知语言中识别的模式来学习新语言的语言基础。
    “假设你一边要和美国人交谈，另一边还要和澳大利亚人交流，而且这个美国人曾经住在加拿大，所以有加拿大口音，这时大多数的语音识别系统都会很难识别这种带有不同口音的语言，但是我们的语音识别系统就完全不用担心这个问题。”Speechmatics公司产品副总裁Ian Firth在一次采访中说。
    在测试中，Global English在识别特定的口音方面表现的比谷歌的Cloud Speech API和IBM的Cloud还要出色。Thüngen表示，在高端领域中，它的准确率比其他产品还要高23％到55％。
    Speechmatics并不是唯一一家想要解决口音识别问题的公司。
    总部位于马萨诸塞州柏林顿的Nuance表示，它将采用多种方法，确保其语音识别系统能够识别将近80种语言，并且准确率都一样高。
    在其英国语言模型中，它收集了20个特定方言区域的语音和文本数据，包括每种方言独有的单词（比如使用单词“cob”特指面包卷）及其发音。因此，这款Nuance的语音识别系统便能识别出“Heathrow”的52种不同表达方式。
    如今，Nuance语音识别系统又有了新的发展。更新版本的Dragon是Nuance研发的定制语音文本转换软件组合，其机器学习模型可根据用户的口音在几种不同的方言中自动切换。
    与没有方言自动切换功能的旧版本相比，新版本的语音识别系统识别带有西班牙口音的英语的准确率要高22．5％，识别美国南部方言的准确率要高16．5％，识别东南亚英语的准确率要高17．4％。
    数据越多越好
    归根结底，语音识别的口音问题是由于数据不足产生的。语料库的质量越高，语言模型越多种多样，那么至少从理论上来说语音识别系统的准确率越高。
    在华盛顿邮报的研究中，Google Home智能语音助手识别美国南部语言的准确率要比识别美国西部语言的准确率低3％。而亚马逊的Echo识别美国中西部语言的准确率要低2％。
    亚马逊的一位发言人告诉华盛顿邮报，随着更多的用户用不同的口音说话，Alexa的语音识别能力会不断提高。并且，谷歌在一份声明中表示，他们将通过扩大自己的数据库，不断改进Google Assistant的语音识别技术。
    随着使用语音识别系统的用户越来越多，它们的功能会进一步提升。根据市场研究公司Canalys数据显示，到2019年之前，将近1亿智能语音系统在全球销售。并且，在2022年之前，大约55％的美国家庭都会拥有一个智能语音系统。
    不要指望有彻底解决口音问题的方案。“按现在的技术发展，你不可能研发出准确率最高并且适用于全世界用户的语音识别系统，”Faith说。“你能做的最好的事情便是保证这些语音识别系统能够准确识别那些正在使用它们的用户的口音。”