智能语音简史：这场技术革命从哪开始？

2024.03.29

    1952年，贝尔实验室（Bell Labs）制造一台6英尺高自动数字识别机“Audrey”，它可以识别数字0～9的发音，且准确度高达90％以上。并且它对熟人的精准度高，而对陌生人则偏低。
    1956年，普林斯顿大学RCA实验室开发了单音节词识别系统，能够识别特定人的十个单音节词中所包含的不同音节。
    1959年，MIT的林肯实验室开发了针对十个元音的非特定人语音识别系统。
    二十世纪六十年代初，东京无线电实验室、京都大学和NEC实验室在语音识别领域取得了开拓性的进展，各自先后制作了能够进行语音识别的专用硬件。
    1964年的世界博览会上，IBM向世人展示了数字语音识别的“shoe box recognizer”。
    二十世纪七十年代，语音识别的研究取得了突破性的进展，研究重心仍然是孤立词语语音识别。
    1971年，美国国防部研究所（Darpa）赞助了五年期限的语音理解研究项目，希望将识别的单词量提升到1000以上。参与该项目的公司和学术机构包括IBM、卡内基梅隆大学（CMU）、斯坦福研究院。就这样，Harpy在CMU诞生了。不像之前的识别器，Harpy可以识别整句话。
    二十世纪八十年代，NEC提出了二阶动态规划算法，Bell实验室提出了分层构造算法，以及帧同步分层构造算法等。同时，连接词和大词汇量连续语音的识别得到了较大发展，统计模型逐步取代模板匹配的方法，隐马尔科夫模型（HMM）成为语音识别系统的基础模型。
    八十年代中期，IBM创造了一个语音控制的打字机—Tangora，能够处理大约20000单词。IBM的研究就是基于隐形马尔科夫链模型（hidden Markov model），在信号处理技术中加入统计信息。这种方法使得在给定音素情况下，很有可能预测下一个因素。
    1984年，IBM发布的语音识别系统在5000个词汇量级上达到了95％的识别率。
    1985年AT＆T贝尔实验室建造了第一个智能麦克风系统，用来研究大室内空间的声源位置追踪问题。
    1987年开始，国家开始执行963计划后，国家863智能计算机主题专家组为语音识别研究立项，每两年一次。
    1987年12月，李开复开发出世界上第一个“非特定人连续语音识别系统”。
    1988年，卡耐基梅隆大学结合矢量量化技术（VQ），用VQ／HMM方法开发了世界上第一个非特定人大词汇量连续语音识别系统SPHINX，能够识别包括997个词汇的4200个连续语句。


    1  2  下一页>