纪念刘倬先生:中国机器翻译开山鼻祖、NLP先行者
前言:
机器翻译,本质上属于自然语言处理技术,技术进步需要产业界和学术界不断研究攻关。
而中国的先行者们很早就提出:机器翻译的问题是语言的问题,而不是单独算法的问题。
作者 | 方文
图片来源 | 网 络
“机器翻译的问题是语言的问题”
机器翻译,又称自动翻译,是用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。
语音翻译和文本翻译虽然也有各自关注的技术难点,但共同面对的核心难题都是自然语言理解。
这是一个很高、甚至是终极的目标,所以许多研究者喜欢用另外一个词,即自然语言处理(NLP)来描述这一学科,强调过程而不是目的。
从方法上,他们希望迅速找到语言规则,就像找到密码的编码规则就很容易破译密码一样,如果找到语言规则,就能够理解自然语言,机器翻译难题就解决了。
机器翻译的问题是语言的问题,而不是单独算法的问题。
这种独到的见解,对今天的机器翻译依然有重要的参考作用。
尽管今天的计算技术,硬件水平,大数据、语料库等等的发展已经很靠前了,但机器翻译的本质问题还是语言本身。
纪念国内机器翻译先行者刘倬先生
刘倬先生因病医治无效,于2022年9月12日在北京逝世,享年89岁。
1953年4月调到中央高等教育部综合大学司工作。
1954年4月至1960年10月在北京俄语学院做讲师。
从这时起他与中国科学院语言研究所刘涌泉先生等合作,开启了我国首次机器翻译的研究。
1960年11月刘倬先生调入语言研究所,专职从事机器翻译的研究工作直到1995年离休。
1956年,机器翻译就被列入了中国国家科学工作的发展规划,课题名称为[机器翻译、自然语言翻译规则的建立和自然语言的数学理论]。
在这个国家规划之下,刘倬先生与刘涌泉先生高祖舜先生一起,从1957年开始研制机器翻译系统;
1959年成功地进行了俄汉机器翻译系统的实验,这是世界上第一个跨语系的、以汉语为翻译目标语言的系统。
1964年出版了我国第一本机器翻译学术著作《机器翻译浅说》,详细论述外译汉机器翻译系统的研制方法。
这个阶段后来被学界公认为我国机器翻译研究的开创期,作为当时的学术带头人,刘倬先生是中国机器翻译事业的开创者之一。
1975年经过十年停滞后科研全面恢复,刘倬先生开始主持研制JFY系列英汉翻译系统。
他的创新方法成就了如今的发展
他的研究始终注重国内外的语言理论,注重语言工程实践,结合汉语的特点,提出了多种语言分析和生成的方法:
在乔姆斯基单层句法解析的基础上采用了多层策略;拓展了传统有限状态文法的边界;
提出了词典的规则化表达和规则的函数化运算;以及在句法解析中隐式代入包含常识的本体知识;
尤其是他根据自然语言处理和机器翻译的需要,设计并实现了一整套符号计算语言学的专用算法语言和平台。
包括专用语言的句法定义、解释执行、作为符号模型的数据结构以及多层解析的控制流程,并配备了质量控制和追踪纠错的功能。
以谓语为轴心、语法和语义同步分析的句素分析法;
个性规则与共性规则相结合的语言分析生成策略;
转换、递归、回溯、动态上下文等语句分析算法;
语义制约与句法模式的转换机制,规则与算法分离的开放式系统架构等。
这些方法对我国基于规则的机器翻译研究和开发起到了奠基的作用,在相应的历史时期代表了国内的主流研究方向。
翻译被赋予了新的历史使命
随着中国[走出去]和[一带一路]战略和政策的深入,对多语言信息转换的需求也将相应扩大。
新时代的语言服务业正在走向高质量、高生产力的阶段。智能化、自动化和数字化是新翻译时代的特征。
完成整个商业业态的重构,真正带来效率的突破和场景化的实现,是新译的使命。
据统计,世界上至少有5000种语言,其中使用频率最高的是汉语、英语和西班牙语。
多语制一方面增加了文化特色,另一方面给跨国交流带来诸多不便,从而催生并加速了翻译市场的需求。
2021年,全球以语言服务为主营业务的企业总产值预计首次突破500亿美元。
中国含有语言服务业务的企业423547家,以语言服务为主营业务的企业达9656,企业全年总产值为554.48亿元,相较2019年年均增长11.1%。
人工智能技术不断创新,机器翻译在行业的应用越来越广泛,具有机器翻译与人工智能业务的企业达252家。
同时,我国机器翻译市场需求与日俱增,主要集中于企业用户,涉及石化、机电、交通运输、金融、旅游等多个垂直领域。
市面上的神经机器翻译系统越来越多,国内的阿里巴巴、腾讯、百度、科大讯飞、搜狗,国外的谷歌、脸书、微软等都在布局,这使相关技术发生质变。
结尾:
如今,机器翻译技术不断迭代、创新,但刘倬先生所留下的诸多重要核心思想将经久不衰。
回头望去,我们更加体会到刘倬先生的研究理念和设计方法体现了经典符号人工智能的精髓,其意义是深远的。
部分资料参考:雷锋网:《中国机器翻译开山鼻祖、NLP 先行者刘倬逝世》