百度新出同传AI,DEMO效果惊人,是噱头还是实力?


    同声传译自1919年在巴黎和会上最早一次亮相后,一直在会议语言排障和实时沟通上发挥着至关重要的作用。同传不同于其他翻译,这种异常消耗脑力的工作不仅需要工作者双语运用自如的语言功底,还需要随机应变的能力。要达到同传的高级翻译水平,更是需要漫长的修炼过程。正是因人才的极度稀缺,早就让同声传译被冠以“日进斗金”的称号。
    人工智能技术的发展虽然在各个方面改善了人们的生活,但同时,它也带来了一些现实存在的威胁,即去人力化并导致群体性失业。如今就连站在人才顶端的同声传译行业也面临着被替代的危险。
    但AI同传工作要求高度的实时性、专业度,以及更低的容错率,因此在机器翻译领域算是个艰难的任务,甚至有人称之为机器翻译的“圣杯”。即是圣杯,胜者必将赢得一片天地,因此除了孜孜不倦的独角兽,微软、百度、谷歌等海内外的AI大厂也都在不断攻克这项难题,然而各方成果却有喜有忧。
    众人竞捧AI同传圣杯,噱头还是实力?
    去年,具有世界领先翻译技术的科大讯飞发布的晓译翻译机获得了超高的人气,其卓越的表现甚至被认为是取代同声传译的一款人工智能产品。然而好景不长,前段时间,爆出的“科大讯飞造假事件”掀起了一场轩然大波,虽科大讯飞方面再三强调“人机耦合”而非AI同传,但其偷换概念,避重就轻的做法还是令一些人对AI同传产生消极的看法,一时间唱衰AI同传突然鹊起。然而因此全盘否定AI在同传上的成就和能力,就有点以偏概全了。
    其实,讯飞造假事件中,核心问题甚至不在于AI同传的技术能力,而是它根本没有使用AI同传。事实上,该会议仅仅使用了“讯飞听见”产品,实际使用的仅仅是语音转换文本功能而已。
    搜狗同传凭实力为AI同传正声
    然而科大讯飞的造假事件并非代表着AI同传真的凉了,真正的AI同传也并非不存在。相反,今天越来越多国际会议和新闻发布会、体育赛事等等重要场合开始使用AI同传。
    前段时间,搜狗同传作为中国网球公开赛的官方翻译合作伙伴,从赛前的媒体发布会到赛后采访,对获胜球员的发言交流提供实时翻译,这是AI同传首次支持大型国际体育赛事。虽然依然有诸多技术不完美之处,但进步显著,并且是AI同传证明其实力的一次重要展现。
    搜狗同传采用的是端对端神经网络翻译技术,可以使用循环神经网络生成翻译结果,并将神经网络精简为五层,翻译的结果相比传统机器翻译大约能高出30%-40%,效率也大幅提升;其使用的语音断句算法,能很好地识别词语和句子的停顿,输送出更符合人类语言习惯的翻译结果,这也是搜狗同传能够快速超车,为AI同传正声的实力所在。
    百度新推AI同传,DEMO效果惊人,可期
    近日,百度于硅谷宣布了最新重大突破——一个名为STACL的同传AI,论文结果优异,Demo效果惊人,MIT科技评论、IEEE Spectrum等一众外媒纷纷好评,这是自2016年百度Deep Speech 2发布以来,又一项让技术外媒们如此激动的新进展。
    据百度方透露,与现在大多数AI“实时”翻译系统不同,STACL具备可预测和延时可控的特点,不走“整句说完再翻译”的路线,能够在演讲者讲话后几秒钟开始翻译,并在句子结束后几秒钟内完成。那么百度又是如何做到高质量与短延时兼具的呢?
    同音近音字问题
    如何分辨同音近音字是保证同传准确性的一个关键点,需要根据语境和背景知识共同分析的过程。在这方面,百度采取了提升容错率,忽略语音-文字转码阶段的错误,进而去提升文字翻译阶段的正确率的方案。百度同传的“语音容错”的对抗训练翻译模型,重点就在于有意在训练数据集中加入针对性的噪声数据,这样即使模型接受到错误的语音识别结果时,也能给出正确的译文。
    预测能力
    这次百度推出AI同传的重点技术为STACL“wait-k words”,即等待讲话时后的第k个词开始翻译,通过对讲话者的语言风格数据进行训练,实现预测能力。同时还可以根据不同语种之间的差异性和不同场景的需求程度来调整K值。
    机器学习
    在百度同传系统中,提出了快速融合领域知识策略,建立在百度自身的互联网大数据之上,百度同传系统获得最基础的通用领域翻译模型。而当进入细分领域时,该系统也会像人类一样,针对细分领域进行学习。
    建立在通用模型的基础上,通过对某一领域数据的增强训练和专用术语的强制解码,尽可能让整体模型和该领域更加契合,从而减少同音字、多义字翻译错误等诸如此类现象,提升整体效率。
    由此可见,百度新出的AI同传技术并非夸大宣传,而是有技术支撑的实力展现。
    对于百度此次在AI同传上的大动作,Engadget认为:“虽然这个系统仍旧有局限性,而且无法在必要的时候取代人类翻译。但是它在谷歌缺席中国的情况下,给出了一种新的选择。”
    AI同传是一个复杂的工作过程,其在表现上的细微差距,背后都隐藏着从机器翻译技术集成、神经网络系统,到NLP等多种技术能力的集合。一家公司复杂庞大AI+语言领域技术体系,最终将会在终端产品表现。正是语音识别、机器翻译等领域上的深厚积累,千锤百炼之下造就了能听会说、能理解会思考的AI同传。最终能捧得AI同传这座圣杯的,拼的不是噱头,不是夸大宣传,而是实打实的技术体系。