Meta免费开源AI模型NLLB-200！可精准翻译超过200种语言

2024.03.24

    近日，Meta公司宣布将免费开源旗下AI系统NLLB-200 ，该系统是全球第一个能翻译200种不同语言的单一AI模型，将为超过10亿人提供高品质翻译内容。
    Meta公司称，将会把NLLB-200对外开源，同时向非营利机构提供20万美元的资助，以开发该技术应用于更多应用程式上。
    德国慕尼黑大学计算机语言学家Alexander Fraser认为，该模型的主要贡献在于数据，包含了100种全新语言。
    目前，市面上很多翻译工具并不支持冷门的语言，也就是少于百万人口使用的语言，而NLLB-200解决了这个问题。
    【不遗漏任何语言】
    全球有数十亿人，但一直以来却没有可以翻译上百种语言的高品质翻译工具，他们无法通过自己惯用的语言或母语浏览网络上的内容，或在网络社群上参与讨论，尤其是对于非洲、亚洲等地区有高达数亿人使用不同种类的语言。
    为了突破网络上的语言障碍，并促进元宇宙发展，Meta的AI研究人员早年已成立NLLB专案，开发AI模型为全世界提供高品质的翻译功能。
    据悉，NLLB是“No Language Left Behind（不遗漏任何语言）”的缩写，该AI系统可以高质量翻译世界上多达200种语言，除了主流语言外，其中还包含多达55种非洲系语言及其他少数语言。
    在多项指标中，相较现有的其他翻译工具，NLLB-200的翻译品质平均高出44％。在部分非洲和印度语言中，提升幅度相较最新的翻译系统更提升了70％。
    此外，Meta也与维基基金会合作，希望NLLB-200之后可以提供维基百科翻译的服务，改善维基百科的翻译系统。通过双方的合作，NLLB－200持续学习其他翻译器中无法翻译的语言，AI模型可以自己学习语言中的文字系统，得到更准确的翻译结果。
    【多语言翻译系统】
    过去几年，AI语言翻译系统的发展非常快。Meta公司曾经指出，目前绝大多数的AI翻译系统是属于“双语言模型”，只是单纯具备一对一的翻译能力，比如英语－中文、英语－日语等等，但Meta希望研发一套“多语言翻译系统”，突破一对一的语音翻译，直接让多种语言的用户可以在同一个聊天室内即时地用口语进行交流。
    去年，Meta AI实验室公布了多语言模型，为AI翻译带来了巨大提升。11月，Meta的多语言模型拿下了WMT国际机器翻译大赛2021的冠军。
    Meta的模型开发策略分为三部分：大规模的数据挖掘、模型扩展、有效运用运算资源。
    1．大规模数据挖掘：为训练多语言模型，Meta研发团队采用两种方式：任意语言到英语，以及英语到任意语言。Meta应用平行数据挖掘技术来收集爬虫取得的网站翻译资料，降低手工翻译成本。
    2．模型扩展：为了提高多语言模型设计的容量，模型规模从150亿个参数提高到520亿个，并在此基础上，利用公司最新的GPU内存节省解决方案——Fully Sharded Data－Parallel，将大规模训练的速度提升了5倍。
    3．有效运用运算资源：为了节省模型的计算成本，Meta采用了一套新的运算方法，让模型在不同训练场景中，只使用模型的一部分，而非整体，以此更有效率运用硬件资源。
    Meta的多语言模型最大特点是针对训练资源少，或小语种的语言翻译，该多语言模型在测试中超过了目前市面上最好的并且经过专门训练的双语模型。Meta认为，这套多语言模型为“通用语音翻译系统”打下了基础。
    Meta的愿景是这套系统可以让全球大众广泛使用，但同时也将会成为Meta旗下的VR／AR等穿戴设备的杀手级应用。
    可以想象的是，“通用语音翻译系统”一旦在元宇宙中实现，可以让全世界不同语种的用户，在元宇宙虚拟空间里沟通、开会、玩游戏，将会比在现实中更加方便，也将更进一步实现Meta对发展元宇宙的野心。