从语音识别到语义识别,中间还有多长的路要走?


    最近科技圈刮起一股收购风,前面博通收购高通还在如火如荼的进行,这周苹果就宣布收购音乐识别软件Shazam。Shazam这个软件,通过手机麦克风收录音频片段,能够识别音乐、电影、电视节目甚至是广告。那么苹果公司整合这项技术做什么?很大可能是为了其人工智能助理软件Siri。
    Siri使用自然语言处理技术,是AI技术的一大体系,而随着近年定义和产业分工越发精细,语言识别渐渐分成了语音识别和语义识别两个支系。语音和语义虽只有一字之差,却有很大的不同。
    打个简单的比方,语音识别相当于是人的耳朵,而语义识别则是大脑,语音识别帮助机器获取和输出信息,那么语义识别则是对这些信息进行识别加工。
    在这里,小编举个例子来帮助大家更好的理解上面的话:
    爸爸没法举起他的儿子,因为他很重。
    问:谁重?
    爸爸没法举起他的儿子,因为他很虚弱。
    问:谁虚弱?
    可以看到,这两个句子结构完全一致,后面的“他”指的到底是爸爸还是爸爸的儿子?这对于我们来说轻而易举,因为我们有能清楚的通过我们积累的知识知道:爸爸举不起儿子,要么儿子太重,爸爸举不起;要么儿子不重,但是爸爸力气小,比较虚弱,因此举不起儿子。
    但是对于一个只会语音识别的机器来说,它不会去思考句子中的“他”到底指的儿子还是爸爸,事实上,它也“想不清楚”。但是通过语义识别,机器会对听到的信息进行加工理解,从而给出正确的答案。
    与语音识别相比,显然语义识别显然要更深一个层次,用到的技术也更为复杂。
    本文中,小编就给大家介绍一下人工智能中,自然语言识别这一重要支系。
    语音识别发展史
    语音是最自然的交流方式,自从1877年爱迪生发明了留声机,人们就开始了与机器的交谈,但是主要还是与人交流,而非机器本身。
    1950年,计算机科学之父阿兰·图灵在《Mind》杂志上发表了题为《计算的机器和智能》的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了,这就是后来鼎鼎有名的人工智能图灵测试。
    到20世纪80年代,语音识别技术能够将口语转化为文本。
    2001年,计算机语音识别达到了80%的准确度。从那时起,我们就可以提取口语语言的含义并作出回应。然而,多数情况下,语音技术仍然不能像键盘输入那样带给我们足够好的交流体验。
    近几年来,语音识别又取得了巨大的技术进步。科大讯飞董事长刘庆峰在一次演讲中,在演讲的同时使用着最新的智能语音识别技术——可以让他演讲的内容实时以中英文双字幕的形式呈现在大屏幕上,反应迅速、几乎没错。识别精确度超过95%。随着这项技术的进步,语音优先的基础设施变得越来越重要,亚马逊、苹果、谷歌、微软和百度都迅速部署了声音优先软件、软件构建快和平台。
    
    
    1  2  3  下一页>