实时翻译是如何实现的?


    科技让我们能够随时通过手机联系到身处世界各地的人。它打破了距离与时间的限制,无论是朋友、家人,还是商务伙伴,我们都能轻松自如地和他们建立联系。然而,直到现在,语言仍是我们面对面沟通的一个障碍。
    尽管我们能够向全球各地发送消息、拨打电话或是视频聊天,但仍不能进行跨语言的流畅交谈。现在,国内领先的智能学习公司——有道,正利用AI来解决这一问题。过去一年半的时间,Qualcomm持续与有道开展合作,通过终端侧的实时翻译来帮助人们打破语言的限制、轻松自如地进行沟通。
    想象一下:你与海外客户进行电话会议。虽然你说的是普通话,但海外客户能够实时地听到标准的英文翻译,这种无缝、流畅的实时翻译十分令人惊叹。但是,这样的实时翻译对技术要求颇高,是此前技术无法实现的。Qualcomm骁龙865 5G移动平台和其集成的第五代Qualcomm人工智能引擎AI Engine,其AI性能是前代平台的2倍,能够支持实时离线翻译的实现。事实上,在2019年12月举行的骁龙技术峰会期间,我们已经在现场展示过部分用例。
    实时翻译是如何实现的
    翻译功能通常由CPU执行,但对于特定应用而言,CPU作为一个通用的性能模块,不能提供足够强大或实用的性能支持。Qualcomm骁龙与有道合作,把翻译移植到更合适的处理模块——Qualcomm Hexagon DSP上,以实现端到端的时延和性能优化。这样做的优势在于,能够有效降低功耗并加大算力,以提高翻译准确性,为实时翻译带来更好的体验。
    无论用户正在进行传统的语音通话还是网络通话,当用户的语音进入骁龙865终端的麦克风并传入骁龙865集成的第五代Qualcomm AI Engine时,有道实时翻译就会马上开始运行。在翻译的过程中,骁龙865会唤醒Qualcomm传感器中枢(Sensing Hub)来消除噪声和回声,然后启动Hexagon处理器进行神经网络处理,这主要包括以下三个阶段:
    1、 自动语音识别(ASR)——以英文来举例,通过在Hexagon处理器上运行卷积神经网络(CNN),用户的英文语音可以被转录为英文文字。
    2、 神经网络机器翻译(NMT)——接下来,英文文字能够通过神经网络机器翻译转换成中文文字。这不仅仅是逐字翻译,而是结合语句结构的翻译。Hexagon处理器能够助力有道算法更好的理解两种语言之间语句结构的区别,以及词语在不同语境中可能具有的不同含义。
    3、 文字转语音——最后,神经网络机器翻译出的中文文字会转化为普通话语音。
    值得关注的是,上述处理过程全部都能够在终端侧实时地进行,这让跨语言交谈真正变得轻松自如。
    实时翻译的未来
    目前,有道实时翻译技术支持包括普通话、英文在内的多种语言。未来,该技术甚至可以扮演口译员的角色,在人们面对面交谈时进行翻译。
    在5G技术的支持下,实时翻译将会以更具沉浸感的方式呈现在人们的生活中。例如,由新一代无线通信和骁龙5G终端赋能的超低时延技术能够在视频电话中支持面部识别,这带来的不仅仅只是声音同步,而是逼真的口型同步,对方就连看起来也像是正在使用与用户相同的语言进行对话。
    Qualcomm Technologies希望帮助全世界进行连接、计算和沟通。这也是为什么我们很高兴能够与有道合作,并打造能够帮助人们克服语言障碍的技术。我们很荣幸可以与合作伙伴一起丰富用户体验,共同架起全世界沟通的桥梁。
    Qualcomm骁龙、Qualcomm人工智能引擎AI Engine、Qualcomm Hexagon和Qualcomm传感器中枢是Qualcomm Technologies, Inc.和/或其子公司的产品。