AI时代工具应用如何转型,或许百度输入法AI探索版给出了答案
深几度2003年5月,《哈佛商业评论》上刊载了尼古拉斯·卡尔那篇题为《IT Doesn’t Matter》(IT不再重要)的文章。
这本文章与其说是《IT不再重要》,不如说是《互联网不再重要》,因为其实尼古拉斯·卡尔在这本书中表达的主题,人工智能、云计算、大数据将会改变我们的时代。
这个标题拿来形容当下的中国互联网可能有很大相通之处。移动时代正在整体向AI时代过渡。移动时代的产品都要纷纷迎接新格局,语音也是如此。
在2018年10月的中国计算语言学大会上,语音识别科学家黄学东博士提到,“语音和语言之进化对人工智能的重要意义毫不亚于语音和语言对人类进化的决定性作用”。百度输入法在1月15日发布会展示的新技术同样呈现了这个趋势。
可以说,百度输入法正是目前的业内标杆。这也是第一家真正思考AI时代人机交互的输入法产品。
智能语音的进化甚至正在把人机交互带入新的阶段。不仅仅有问有答、包含上下语义逻辑,人工智能硬件能够更多地融合各种环境信息,作出不同决策或推荐。
百度系产品在过去几年的进化过程中,逐渐展现出了新的人机交互逻辑。
一、交互的进化
工具型产品在不同时代、不同需求、不同场景往往面临着转型考验。搜索、输入法这些从PC时代走到移动时代的产品,到了AI时代再一次发生进化。
搜索这样的产品就在从过去的搜索引擎,变成“搜索+信息流”的双引擎产品。像百度APP就在融入AI,把过去搜索引擎时代的人找信息,变成信息、服务找人。既能让用户找到信息,也能让信息找到用户,重构了新型信息服务体验。
输入法同样如此。输入法本质上是人类和机器的交互方式。我们真正去追根溯源就会发现,PC时代,输入法要通过键鼠让我们和机器交互。随着移动时代的来临,触摸屏又取代键鼠,成了输入法新的承载。
细细数来,键鼠这种交互方式存在至今不过百年,而触摸屏这种交互方式严格算来也仅仅只有不到20年。实际上,语音本来就是人诞生以来最天然的交互方式。未来输入法通过语音的方式获取服务,甚至在搜索、娱乐、购物等众多场景出现,也毫不为奇。
早在微软Build2016开发者大会上,微软CEO纳德拉就提出了“Conversations as a Platform”,也就是“对话即平台”的人工智能发展方向。
这个概念在后来也被成为是“对话式人工智能”。
所谓“对话式人工智能”指的是,对话本身就是一个平台,各种知识、信息与服务都运行在“对话”其上,可以形成生态环境的基础平台。人和人工智能之间的对话,即是解决各种问题的一种路径和方式。
事实上,百度输入法正在朝这个方向努力——用AI改变人和世界的交互方式,让人们随时随地与世界互动,获取生活服务。
二、技术的跃进
产品进化终究需要长期祭奠技术,并在技术积淀过程中厚积薄发,最终在产品层面体现出来。
这次百度输入法进化的秘密在于“流式多级的截断Attention模型”(注意力模型),还在业界第一次创新性的提出了SMLAT技术。这是国际上首次超越了整句的注意力模型。这也是国际上首次实现在线语音大规模使用注意力模型。
我们先解释“流式多级的截断Attention模型”这个问题。
要知道,过去传统的Attention模型都是基于整句的,整句Attention技术是在语音都上传到服务器后,才能开始声学打分计算和解码,会引入较大的用户等待时间,没法做到在线语音交互的大规模实时服务,达不到上线标准。
百度在使用“流式多级的截断Attention模型”之后,主要技术优势在三点。
1、基于CTC的尖峰信息对语音流进行截断,然后再每一截断的语音小段上进行当前建模单元的注意力建模;
2、把全局的Attention的整句识别变成了局部的Attention的流式识别,并且引入多层的Attention,实现特征层层递进的更精准的特征选择;
3、语音识别的识别率超越传统的全局Attention建模,同时计算速度和传统CTC技术持平,实现全CPU流量的大规模线上服务。
另外在在离线语音识别领域,百度输入法还在持续优化Deep Peak 2系统,让离线语音输入相对准确率再次提升。 这些内容听起来很专业,我们通俗解释的话就是,这使得语音的相对准确率提高了,而且用户可以说得更自由了。
不管是流式多级的截断Attention模型以及优化Deep Peak 2系统。这些技术进展在逗未来在技术转化和产品落地上产生影响。
1 2 下一页>