从语音识别到语义识别，中间还有多长的路要走？

2022.11.08

    最近科技圈刮起一股收购风，前面博通收购高通还在如火如荼的进行，这周苹果就宣布收购音乐识别软件Shazam。Shazam这个软件，通过手机麦克风收录音频片段，能够识别音乐、电影、电视节目甚至是广告。那么苹果公司整合这项技术做什么？很大可能是为了其人工智能助理软件Siri。
    Siri使用自然语言处理技术，是AI技术的一大体系，而随着近年定义和产业分工越发精细，语言识别渐渐分成了语音识别和语义识别两个支系。语音和语义虽只有一字之差，却有很大的不同。
    打个简单的比方，语音识别相当于是人的耳朵，而语义识别则是大脑，语音识别帮助机器获取和输出信息，那么语义识别则是对这些信息进行识别加工。
    在这里，小编举个例子来帮助大家更好的理解上面的话：
    爸爸没法举起他的儿子，因为他很重。
    问：谁重？
    爸爸没法举起他的儿子，因为他很虚弱。
    问：谁虚弱？
    可以看到，这两个句子结构完全一致，后面的“他”指的到底是爸爸还是爸爸的儿子？这对于我们来说轻而易举，因为我们有能清楚的通过我们积累的知识知道：爸爸举不起儿子，要么儿子太重，爸爸举不起；要么儿子不重，但是爸爸力气小，比较虚弱，因此举不起儿子。
    但是对于一个只会语音识别的机器来说，它不会去思考句子中的“他”到底指的儿子还是爸爸，事实上，它也“想不清楚”。但是通过语义识别，机器会对听到的信息进行加工理解，从而给出正确的答案。
    与语音识别相比，显然语义识别显然要更深一个层次，用到的技术也更为复杂。
    本文中，小编就给大家介绍一下人工智能中，自然语言识别这一重要支系。
    语音识别发展史
    语音是最自然的交流方式，自从1877年爱迪生发明了留声机，人们就开始了与机器的交谈，但是主要还是与人交流，而非机器本身。
    1950年，计算机科学之父阿兰·图灵在《Mind》杂志上发表了题为《计算的机器和智能》的论文，首次提出了机器智能的概念，论文还提出了一种验证机器是否有智能的方法：让人和机器进行交流，如果人无法判断自己交流的对象是人还是机器，就说明这个机器有智能了，这就是后来鼎鼎有名的人工智能图灵测试。
    到20世纪80年代，语音识别技术能够将口语转化为文本。
    2001年，计算机语音识别达到了80％的准确度。从那时起，我们就可以提取口语语言的含义并作出回应。然而，多数情况下，语音技术仍然不能像键盘输入那样带给我们足够好的交流体验。
    近几年来，语音识别又取得了巨大的技术进步。科大讯飞董事长刘庆峰在一次演讲中，在演讲的同时使用着最新的智能语音识别技术——可以让他演讲的内容实时以中英文双字幕的形式呈现在大屏幕上，反应迅速、几乎没错。识别精确度超过95%。随着这项技术的进步，语音优先的基础设施变得越来越重要，亚马逊、苹果、谷歌、微软和百度都迅速部署了声音优先软件、软件构建快和平台。


    1  2  3  下一页>