“人机自然交互技术”的趋势与挑战

2024.07.08 AI锐见

最近AI寒冬论再起，从图像到语音再到自动驾驶这三个人工智能赛道轮番被诟病，特别是语音赛道，如今更是备受美元资本市场冷落。为什么会出现这个情况呢？我想主要还是大家当前的认知和信心问题，因为从实际商业化进程来看，图像和语音是人工智能领域早就规模商业化的领域，图像主要是面向安防等行业的专业应用，而语音主要是以智能音箱为代表的面向消费电子的个人应用，其他比如金融、医疗、零售、客服等AI应用相对规模还是小一些，而自动驾驶更是需要时间，短期内商业普及的可能性微乎其微。从最近五年的融资事例来看，人工智能的融资总额还在上升，但是已经越来越集中于A轮以后的企业，也就是说资本更加看较为成熟的AI公司。

事实上，商业化进程更快的技术率先遇到信心低谷也是正常现象，毕竟技术和市场都存在一定的交叉周期，过早落地就意味着暴露出更多实际应用的问题，这就需要资本低谷来消化技术爆发早期的泡沫，这总比一些技术或者产品的“见光死”要好很多。早期互联网和移动互联网也都经历了类似的阶段，智能手机的孕育期也超过了十年并且更迭了一波巨头才实现爆发前夜的积累，似乎有点符合股票市场的艾略特波浪理论。不过语音相对更加凄惨一些，基础技术的研究差不多有60多年的历史，直到最近几年才有像样一点的产业落地，而且语音相对图像天生就没有夺目的本领，语音赛道的低调让人觉得没有图像赛道那样炫目多彩。这一点其实就很不符合美元基金的审美逻辑，美元基金强调的是故事的性感，而且更加希望公司能够登陆美股市场。当然，换个角度来看，语音赛道并非一个烧钱的赛道，事实上烧钱的业务本身也有问题，技术的优势在于先发优势，只有唯快不破才能立于不败之地，而资本只是帮助构建壁垒的工具。这个世界有太多事情并不是烧钱就能获得的，正确往往就是不容易。比如人工智能和区块链，虽然区块链的技术理念很好，但是太过于炒作并且只为牟利不顾道德，所以从全球关注趋势来看，可以借用一句俗语“We know more than we can tell”来总结。

    进一步的说，声音虽然承载了人类的思想和情感，但是图像却承载了人类的表象和直觉，显然人类的第一印象，内涵丰富远远比不上外表艳丽，这是人类基于生殖繁衍的本性追求，也是无可厚非。更让人恼火的是，声音天然还不具有群体示范效应，比如在人数众多的会场，演示图像总是容易引起观众的惊叹，而若是演示语音则一般都会是灾难，对观众（所以不叫听众）来说，“看”总比“听”更容易High起来。何况我们人类也没很好解决聚众场所的“鸡尾酒会效应”问题，这种场合下的智能语音体验绝对是一塌糊涂。即便相对简单的家居环境，做好远场技术也是难度极大的挑战。到现在为止，我们也没有很好解决远场通话和远场识别问题，这点大家可以从全球销量累积已经过亿台的智能音箱产品中得到验证，可以肯定的是，智能音箱已经应用了最为先进的技术，但是仍然远远达不到很多AI厂商所给大家描绘或者演示的体验预期，事实上，短期内也不可能达到。
    上面提到了“远场”这一概念，这是借鉴的学术名词，一般我们定义为1尺以上的距离，1尺大概是1KHZ单频声波的一个波长，也是一个手臂自由操控的距离，为什么要定义这一概念？主要是为了让行业对新技术有一个新的认知，远场语音交互技术主要是解决真实场景下舒适距离内人机任务对话和服务的问题，舒适距离的意思就是不要太远也不要太近，太远就会让人不自觉提高说话声音，这增加了能耗容易让人疲劳，太近了则会触发人类的安全意识，天天趴在耳朵上说话也受不了。为了更加准确定义场景，我们一般取5米作为标尺，事实上3米之内才是最好的距离。所以，远场这个概念就是希望加强人们对于语音可以释放双手这一最大魅力特性的认知，远场就是语音新技术最为显著的标签，这也是声智对语音技术做出的主要贡献之一。

    但是，即便以远场语音交互技术为核心的智能音箱全球爆发，国内更是在推出后一年时间就达到了2200万台的销量，仍然还是面临了很多质疑和批评。这些质疑主要集中在两点：一是语音赛道的商业趋势问题，二是应对巨头竞争的策略问题。实际上这两个问题有些相悖，第二个问题已经例证了第一个问题的尴尬，就是因为这个赛道太重要了，所以全球巨头都在其中竞争，包括了这个时代最有钱的所有互联网巨头：亚马逊、谷歌、微软、苹果、脸书、三星、百度、阿里、腾讯、华为、小米等等。


    1  2  3  下一页>