“搜狗听写”有何“杀手锏”?走近搜狗的人工智能战略


    就在一周前搜狗宣布赴美上市计划的那天,搜狗公司CEO王小川在员工内部信中写了这样一句话:“已经没有人会怀疑搜狗的生存问题了,唯一的悬念是搜狗是否能在搜索领域实现颠覆,是否能在人工智能领域引领重大的创新。”一时间,王小川的“悬念”成为看点——8月8日,搜狗正式迎来了第一款语音技术产品“搜狗听写”。
    语音实时转文字背后有深度学习技术
    搜狗听写的定位是“文字工作者的速记工具”。针对写文章、采访录音、会议记录、笔记整理 、日常记事等场景,以实现高效记录和信息输入。
    搜狗听写最亮眼的功能在于“听写”和“转写”两种模式。“听写”模式下,录音的同时可以实时识别结果;而“转写”模式下则可以离线录音,录音完成后一次性获取文字结果。
    
    除此之外还有诸如支持手机边听边改、无线标重点(蓝牙打点)、多客户端同步、信息分享、摘要、断点续录等人性化功能,另外,针对图书馆、咖啡厅等安静场所,搜狗听写提供耳语识别技术——人说话音量低至30分贝时,依然可以准确识别。
    被牛露云称作“大杀器”的一个功能,是搜狗听写与搜狗输入法的个人词库已经打通,可以视为媒体撰稿人之间文字互通的功能。
    
    关于下载,搜狗听写除了支持Android、ios版本之外,还开发了Windows版,Windows版特别针对会议场景,观众可以直接看到会议演讲者的实时字幕,字幕可能是直接文字的转写结果,也有可能是双语、多语对照结果,观众甚至可以直接扫码获取当天的录音和文本结果。
    这样一款语音识别产品,实际上是基于深度学习技术,以提升复杂场景识别效果。
    说到深度学习,离不开三要素:有没有大数据,有没有好的深度学习算法,以及能不能让深度学习算法在深度学习平台上高效运转。
    搜狗语音交互中心技术总监陈伟介绍,“搜狗输入法每天语音识别的PV是2.6亿次,产生的语料规模是22万小时。”关于算法,搜狗早期较多使用深度神经网络,随后尝试了CN算法、LSTM的算法,现在转为CN+LSTM+DN的端到端的算法,可以更高效,准确率更高。
    有了数据+算法,接下来就是运算,如何高效的给出模型以快速部署到线上,关键在于搜狗的深度学习平台。“我们可以在自有的深度学习平台上调动上百块算卡,快速的给出模型。”陈伟说。
    实际上,目前市场上已有一些同类型的产品,例如科大讯发早期推出的讯飞听见等,相比之下,搜狗是否存在优势呢?搜狗语音交互中心负责人王砚峰表示:
    第一,讯飞对应的产品,如讯飞听见、讯飞录音宝等,是不能支持长时间录音、并且免费转写的。而搜狗是首次做了长时录音设置,并且支持免费转写。
    第二,搜狗的产品是面向垂直场景,包括记者采访的场景、作家写作的场景等等。这些功能虽小,但它体现在具体场景下,怎么绞尽脑汁的想尽办法,帮朋友解决问题。
    第三,搜狗听写支持手机端和windows,还有语音实时转文字、边听边改、标重点、快速查找、多端同步、不限时长录音等功能。
    此外,依托搜狗日均超过2.6亿次的语音请求,提供海量的真实语料数据,可以使得机器不断学习,不断提升识别准确率,可应用的场景也越来越广泛。
    但对于搜狗转写免费会持续多长时间这个问题,王砚峰表示,目前肯定是免费的,至于之后会不会收费,并不完全确定。至少按照现有的产品形态,肯定是在相当长的时间内不考虑使用这个产品来赚钱。作为一家互联网公司,通过技术来收取技术服务费不是搜狗的商业逻辑。至少到现在为止,搜狗还不想通过产品收费的方式来进行商业变现。
    
    搜狗语音交互中心负责人王砚峰
    
    
    1  2  下一页>