谷歌前工程师开发实时AI语音APP

2024.03.31

    在2018年移动世界大会上拥有三层展台的数十亿美元技术巨头中，有一对企业家在谈论人工智能方面的突破，他们刚刚把一款名为Otter．ai的新应用程序在iOS和Android中推出。
    当他们坐下来在Fira Barcelona 2号展厅后角的一个小会议室里谈论时，Sam Liang将他的iPhone放在桌子上，并点击了Otter应用程序中的记录按钮。作为Otter．ai背后公司Alexense的首席执行官，Liang开始讲述了加州15人创业小公司如何采用不同的方法来理解音频数据，不同于亚马逊Alexa，谷歌助理和其他公司在语音识别上的努力。
    在Liang发表讲话时，Otter开始吐文，大概延迟了2－3秒。而且，由于Liang事先在应用程序中设置了会议，所以当他的队友Seamus McAteer提出自己的评论时，软件会自动识别，或者会因其他人的后续问题而中断。
    尽管Otter的自然语言处理方式并不完美，标点缺失，词语被误解，说话人有时被错误识别，但它已经非常接近了，特别是考虑到速度和应用程序是免费的。
    “我们的技术完全不同。” Liang在接受ZDNet采访时说。 “我们称之为＇Ambient Voice Intelligence＇（环境声音智能），我们使用ambient这个词来表示这是在后台工作......你的大脑只能记住10－20％的（会议）信息......所以我们认为我们可以帮助人们捕获这些信息，然后快速搜索。”
    搜索是最好的功能。录制完成后，应用程序的机器学习会自动创建约10个关键字，以便用户了解会议的内容。你可以马上开始搜索全文。同样有用的是，一旦你熟悉关键字，可以点击播放按钮来收听发生的音频部分。
    该应用程序的下一个最佳功能是可以共享记录的会议。所以，如果你有一个会议，而一个同事不能参加，你可以随后向他们发送记录和音频，以便他们找到与之相关的东西。
    如果你将谷歌帐户连接到应用并导入联系人，那么所有这些高级功能都是非常简单的。因此，如果你的企业使用Google Apps，它可以非常顺利地运行。跟谷歌的整合并不令人意外，因为Liang是谷歌前工程师。
    McAteer从事移动和数据分析工作已有20多年。团队的其他成员由前谷歌，Facebook，雅虎和Nuance员工以及麻省理工学院、斯坦福大学和其他顶尖科技计划的博士和计算机科学家组成。
    自2016年1月起，该团队一直致力于研究Otter背后的技术。他们拥有在过去一年中授权给其他合作伙伴的API －主要是在录制完成后提供音频文件的转录。 AISense利用所有的合作伙伴数据来调整和训练算法。
    今年1月，他们宣布与快速增长的视频会议服务公司Zoom签署了一项许可合作伙伴关系，现在该公司提供了一个录制视频会议的选项——由AISense提供支持。
    随着推出实时录音的免费应用程序，该公司正在进入下一个阶段。它最终计划推出其应用程序的高级版本，该版本将建立在免费版本的功能上。例如，免费版本将允许你搜索过去90天的会议。高级版本将进一步扩大。
    “能够记住，搜索和分享你的语音对话是合作的下一个前沿。” Liang说，“Otter授权用户使用AI进行日常对话，因此他们可以专注于所说的内容而忘记记笔记。”
    可以在Otter．ai，Apple App Store和Google Play Store找到该应用程序。 iOS版本在这一点上更加精细一些，但都值得关注这款应用程序随着时间的推移如何发展和提高。
    IBM Watson提供实时的文本到语音服务，但它背靠超级计算机。因此，AISense使用应用程序和智能手机取得了令人印象深刻的成就，而且它可以说是2018年世界移动通信大会上宣布的最重要突破之一，尽管它一直以来十分低调。