智能音箱迎来升级战,语音识别成为其破局的关键
陈剑锋户主回到家,室内灯就自动开启,室温调至适宜温度;
同时类似siri的小管家,还会贴心告诉你该要添置哪些家用了,步骤也不劳你费心,只要下个命令,siri就会去线上下单;
当你出门在外,你的汽车能完美实现自动驾驶,根本不用操心路况和认路问题。
以为这样就玩了吗?精彩的还在后头——
如果在行驶的过程中你做出些违规操作,siri则是绝对不乐意的,会及时提醒你。
你一定以为这是我幻想出的场景,其实不然,这是日前刚上映的外国科幻惊悚片《升级》中的场景。不过它或许在不久之后会映射入我们的真实生活场景当中。
智能音箱市场表面上形势一片大好
在目前全球范围内掀起的人工智能浪潮中,智能音箱作为全新的人机交互体验最佳的入口,成为了世界科技巨头们打开AI大门必争的突破口。目前智能音箱市场仍旧以亚马逊Alexa为领先,其次是谷歌,而苹果Siri和微软Cortana仍处于苦苦追赶之势。据【TechWeb】8月7日消息,亚马逊凭借着这波热潮,在全球售出了超过5000万台Alexa智能音箱,并希望凭借这个机会将自家产品与智能音箱进行整合。
再回到国内,随着BAT的不断加持和其它实力毫不逊色的互联网独角兽的全力布局,国内智能音箱市场同样迎来了前所未有的迅猛发展。根据Canalys的最新统计数据显示,在2018年第二季度的全球智能音箱市场份额占比当中,中国智能音箱表现非常强势,其中可以看到谷歌第一、亚马逊第二,天猫精灵第三、小米第四。
值得一提的是,小米作为后杀人互联网的手机制造商,凭借着“高性价比”和“爆款”的模式迅速突破层层防线入主众多领域建立起强大的小米生态体系,智能音箱就是其中辉煌的一笔。
小米从去年到现在扎努了整个市场的12.2%份额,我们看到小爱同学凭借一个非常低的价格,在国内市场颇受欢迎。与其他厂商不同的是,小米将智能音箱的门槛放得很低,而且打通了小米手机的语音助手,利用深度学习算法,做到不错的表现效果。而在刚过去的15日,雷军就宣布小爱同学的每月活跃设备数量超过3000万,这也是小米IPO以来听到的最好的消息。
由此可见,无论是在国外、还是在国内,智能音箱市场似乎整体看起来表现的都还不错,形势一片大好。但事实真的是这样吗?
智能语音的可控性值得担忧
世界巨头都在争夺智能音箱通往AI的这个超级入口,但并不代表这个入口就已经足够的成熟,只是巨头们不想错过这个最佳的入口而已。事实上智能音箱只是一个载体,核心在于搭载的智能语音交互系统(即语音识别),而语音识别作为研究AI的重要基础,在语意的理解能力和识别的精准度的技术上是无法达到炉火纯青的地步的,尤其是在搭载智能音箱之后的语音的控制上面值得担忧。
尽管在考虑到全球语音市场的竞争格局之后,据外媒最新消息,亚马逊Alexa和微软的Cortana两大语音助手正式联姻。但也许仍然无法达到其预想中的完美形态,譬如就无法播放部分在线音乐服务等。
这还不是最关键,最关键的是你无法掌握语音的可控性,简单的来说,也就是你根本不知道什么时候就会无意间唤醒siri,更不知到从何时起你的谈话被偷听了,当快递小哥突然给你送来一个包裹你却还一脸懵逼。
据笔者在雷锋网获悉,在国外发生一件奇葩的新闻,亚马逊Echo协助警方避免了一起谋杀案。国外一名男子在与女友发生争吵时,男子拿枪指着女友质问她:“你给警长打电话了?”而在旁边的谷歌 Home 听到了“给警长打电话”的命令,所以也就按命令执行了。最后特警队抵达事件所在地,安全的制止了事件的进一步发生。
这看起来还算是一件很好的事情,至少Echo可以帮你解决突发的危险和状况。不过接下来的案例就不得不让你生无可恋、甚至惊悚。
据说,国外一家洋娃娃公司在电视上播放了一则玩偶之家的广告,该地区竟然数个家庭的亚马逊Echo在听到广告后自动开始在网上订购玩偶之家。这还不算,在国内浙江大学电气工程学院智能系统安全实验室甚至曾成功对亚马逊的音箱 Echo发起了“海豚攻击”,通过利用麦克风的硬件漏洞,成功“黑”进智能设备的语音助手系统,通过发出人耳无法听到的超声波语音,让语音助手执行他们所下达的指令,比如让 Echo 在亚马逊上买个东西。
而更加惊悚的是,MWR InfoSecurity 的研究人员发现,老款亚马逊 Echo 智能音箱中存在一个安全漏洞,黑客可以将 Echo 音箱变成窃听器,而又不影响它的整体功效。原理是研究人员通过制作的一个插头把 Echo 连上了笔记本电脑和 SD 读卡器。然后利用调试工具破解了 Echo 的系统,写进去了一个专用的引导程序。而这台 Echo 所有听到的音频流都会自动转发到他的远程服务器上,关键的是这台智能音箱的其他功能看上去竟然一切正常。
也就是如果一旦智能音箱被不法的黑客入侵,用户的大量数据和隐私安全将受到大量的威胁。
口语仍旧是语音识别很难突破的壁垒
再回到语意识别的精准度上,虽然如今全球在AI技术上不断的突破,语音识别的精准度和理解能力上也达到堪称完美的地步,诸如曾经有媒体报道,谷歌Google Assistant将在2018年底将支持超过30种语言;除此之外,高通已经开发出了一款能够识别单词和短语的语音识别设备,准确率高达95%。
不过如果这用在中文测试上,或许会显得很Low了。众所周知,中国在经过几千年的文化更替,其文字早已变得难以捉摸,尤其是演变出浓厚的各种地方特色语言早已超过了30种,就连中国人都不一定能够听得懂、更不用说毫无生机的机器语音识别了。
譬如,在一项研究中,就有人通过Alexa测试识别一些非本土口语的语种,结果显示不准确率可达30%。而面对以西班牙语和汉语作为第一语言的人说英文,不管是Google Home还是亚马逊 Echo,其识别率都是低的吓人。
写到最后
总而言之,语音识别在目前看来依然还存在众多技术在短时间仍旧无法突破的壁垒。巨头们大量的抢占智能音箱市场,只是因为它作为通往卧室链接AI最佳的解决方案。在巨头们抢占了这个入口的同时,并不代表他就掌握了AI的超级入口,仍旧需要在语音识别的技术提升、创新上面不断的研究和突破。
否则,即使你先抢占了智能音箱这个超级入口,但在智能音箱不断迎来升级战的过程中,你依然会很容易被后来者轻而易举的超越和取代,毕竟AI作为技术创新极强的领域,只有不断的技术创新和迭代升级,才有可能安稳的渡过这场升级战,至于说能不能够成为行业的标杆,至少得先活下来吧!
文/陈剑锋