谷歌前工程师开发实时AI语音APP
在2018年移动世界大会上拥有三层展台的数十亿美元技术巨头中,有一对企业家在谈论人工智能方面的突破,他们刚刚把一款名为Otter.ai的新应用程序在iOS和Android中推出。
当他们坐下来在Fira Barcelona 2号展厅后角的一个小会议室里谈论时,Sam Liang将他的iPhone放在桌子上,并点击了Otter应用程序中的记录按钮。作为Otter.ai背后公司Alexense的首席执行官,Liang开始讲述了加州15人创业小公司如何采用不同的方法来理解音频数据,不同于亚马逊Alexa,谷歌助理和其他公司在语音识别上的努力。
在Liang发表讲话时,Otter开始吐文,大概延迟了2-3秒。而且,由于Liang事先在应用程序中设置了会议,所以当他的队友Seamus McAteer提出自己的评论时,软件会自动识别,或者会因其他人的后续问题而中断。
尽管Otter的自然语言处理方式并不完美,标点缺失,词语被误解,说话人有时被错误识别,但它已经非常接近了,特别是考虑到速度和应用程序是免费的。
“我们的技术完全不同。” Liang在接受ZDNet采访时说。 “我们称之为'Ambient Voice Intelligence'(环境声音智能),我们使用ambient这个词来表示这是在后台工作......你的大脑只能记住10-20%的(会议)信息......所以我们认为我们可以帮助人们捕获这些信息,然后快速搜索。”
搜索是最好的功能。录制完成后,应用程序的机器学习会自动创建约10个关键字,以便用户了解会议的内容。你可以马上开始搜索全文。同样有用的是,一旦你熟悉关键字,可以点击播放按钮来收听发生的音频部分。
该应用程序的下一个最佳功能是可以共享记录的会议。所以,如果你有一个会议,而一个同事不能参加,你可以随后向他们发送记录和音频,以便他们找到与之相关的东西。
如果你将谷歌帐户连接到应用并导入联系人,那么所有这些高级功能都是非常简单的。因此,如果你的企业使用Google Apps,它可以非常顺利地运行。跟谷歌的整合并不令人意外,因为Liang是谷歌前工程师。
McAteer从事移动和数据分析工作已有20多年。团队的其他成员由前谷歌,Facebook,雅虎和Nuance员工以及麻省理工学院、斯坦福大学和其他顶尖科技计划的博士和计算机科学家组成。
自2016年1月起,该团队一直致力于研究Otter背后的技术。他们拥有在过去一年中授权给其他合作伙伴的API - 主要是在录制完成后提供音频文件的转录。 AISense利用所有的合作伙伴数据来调整和训练算法。
今年1月,他们宣布与快速增长的视频会议服务公司Zoom签署了一项许可合作伙伴关系,现在该公司提供了一个录制视频会议的选项——由AISense提供支持。
随着推出实时录音的免费应用程序,该公司正在进入下一个阶段。它最终计划推出其应用程序的高级版本,该版本将建立在免费版本的功能上。例如,免费版本将允许你搜索过去90天的会议。高级版本将进一步扩大。
“能够记住,搜索和分享你的语音对话是合作的下一个前沿。” Liang说,“Otter授权用户使用AI进行日常对话,因此他们可以专注于所说的内容而忘记记笔记。”
可以在Otter.ai,Apple App Store和Google Play Store找到该应用程序。 iOS版本在这一点上更加精细一些,但都值得关注这款应用程序随着时间的推移如何发展和提高。
IBM Watson提供实时的文本到语音服务,但它背靠超级计算机。因此,AISense使用应用程序和智能手机取得了令人印象深刻的成就,而且它可以说是2018年世界移动通信大会上宣布的最重要突破之一 ,尽管它一直以来十分低调。