现在，人工智能已经解决了机器感知问题，下一步是什么？

2024.04.19

    来自南京工业大学的宋昊旻用听上去有些蹩脚的普通话，在微软人工智能大会的舞台上，跟微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋进行对话的时候，现场很多人都非常感动。对于一个双耳失聪的人来说，只要拿着一部手机，就可以跟人正常交流，是多么难的一件事。我们不会手语，而他们听不到声音，而我们和他们之间的鸿沟，现在只要有一部手机就帮助宋昊旻跟正常人沟通，甚至可以跟外国人交流了。
    图：宋昊旻（右）与微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋（左）
    解决宋昊旻的沟通问题，可能只是我们看到的其中一个小例子，帮助人类解决更多语言的问题，才是人工智能的专家们孜孜以求的目标。微软云与人工智能事业部全球资深技术院士兼首席语音科学家黄学东，正在微软领导语音技术和语言翻译工作，他们的工作就是想解决这些问题。
    从感知到认知
    二十几年前的时候，没有GPU，没有DSP、TMS320……，那个时候的黄学东是不敢想象，计算机语音识别、语音合成能达到可以媲美人类的水平，到今天来看，这已经是很了不起的成就，是令语音识别这个领域的人值得骄傲的成绩。
    图：微软云与人工智能事业部全球资深技术院士兼首席语音科学家黄学东
    从整个人工智能的发展水平来看，这是人工智能在感知层面的一大步。
    不管是语音识别也好，计算机视觉也罢，都属于“感知”层面，感知智能因为深度学习、神经网络的发展，获得了突破性的成果。但是在认知层面，进步还是有限的。
    我们当前看到的机器翻译，实际上是处于感知到认知之间的过程，它可以“假装”听懂，来做翻译工作，而且翻译出来的效果还不错，但实际上，它并没有听懂。
    今年，黄学东带领团队在中英文新闻翻译任务（WMT－2017）上首次实现了可以媲美人类的机器翻译历史性突破，这是非常有历史性意义的事实。语音和语言是人类进化中重要的要素，而现在，计算机第一次在翻译质量上超过专业人士的水平，这对人类文明的进展来说，都很有里程碑意义。
    所谓“认知”包括上下文推理，真正的自然语言处理，而这方面还需要更长的路要走，那才是人工智能真正的皇冠，我们现在还没有达到，也不知道什么时候达到。
    可以想象一下，如果有一天，机器可以理解我们所有的文本，了解上下文，有推理的功能，这意味着机器可以24小时阅读所有的新闻，所有出版过的文件、著作、科学文献，那是真正的“上知天文下知地理”，还有生物等等各个学科的知识，那个时候的机器比爱因斯坦，因为爱因斯坦也是只懂物理，那个时候，才是真正的“强人工智能”的来临。
    强人工智能，一定是有自然语言理解，由感知驱动的，让计算机能达到人的知识获取能力，可以通过阅读自动获取知识。过去5000年人类的所有文献，它都可以读得一个字不忘，还有超过人类的深入理解。
    比如说，今天，我们引用《封神演义》里的一句：眼观六路、耳听八方，其实《封神演义》里面讲的不是六路，是眼观四路、耳听八方。如果计算机在自然语言处理上进步了，机器就可以指出“眼观六方”是不对的，《封神演义》讲的是四方，不是六方。
    智能音箱、翻译机开始“感知”
    当然，让黄学东感到遗憾的是，以目前的技术能力和水平，还不知道什么时候能够实现真正的“强人工智能”。但好消息是，在从感知到认知的过程中，我们已经有了一步一步的成绩。
    黄学东强调，语音技术是一个赋能的技术，所有的开发者都可以把这个技术拿过来，实现自己想要做的东西，比如智能音箱和翻译器的火爆，是两个很好的案例。
    “现在远场语音识别能力已经很强，所以音箱火得不能再火了，智能音箱也成为今年CES展上的重头戏。音箱出现很重要的一个原因就是，语音识别技术进步到了这个水平，远场交互都已经达到了可用的水平，所以促使了智能音箱市场的火爆。”
    今年另一个热门产品翻译器，尤其在中国，是一个很大的市场。中国每年有1．2亿的游客出去，微软跟小米生态链企业香蕉出行合作推出的魔芋AI翻译机，能够提供覆盖全球170多个国家和地区的14种语言的实时语音翻译，而且物美价廉，常常是脱销状态。
    从翻译的质量来看，目前的翻译机也是不逊色的。翻译满分是100分的话，微软最新的机器翻译系统已经达到了69分，可以媲美人类。机器翻译不像语音识别只有唯一的答案，机器翻译是有很多种答案的，评价机器翻译的时候，现在只能靠人为判断。现有的商用系统中，微软和谷歌在标准的测试集上，得分分别在56分、54分左右，在微软有最新突破之前，国内的搜狗公司达到了62分的水平。
    然而当翻译机火爆的时候，人工智能威胁说也随之愈演愈烈，人工智能会取代翻译的说法也铺天盖地。
    但黄学东觉得，目前机器翻译取代人类还为时尚早，机器翻译出错误会出得比人类更离谱，最好的方法就是在机器转录翻译的时候，有人在旁边看着，有错误就给纠正一下，人和机器协同工作，这是最好的模式。
    因为在出现冷僻的词、新的概念的时候，机器往往会出错。人可以实时学习冷僻的词和新的概念，这里面实际上包含很大的信息量，人类马上可以自适应，可以举一反三，而机器就做不到。怎么样处理没有见过的事情，这才是真的智能，也是人类智能和机器智能最大的区别。
    “如果是没有突发事件，那么是基本可信、基本可达、基本还算比较雅。如果出现突发事件，就举一不可反三，这是人工智能和人的智能最大的差距。”