2018年曾经发生和未曾发生的人工智能革命

2024.06.04

    回顾2018年，人工智能在这一年中继续在数字领域迅猛增长，并将其神奇的力量注入到几乎每个行业的每个角落，并彻底改变了人们使用数据的方式。如今，很多企业都急于利用深度学习技术来颠覆他们的业务流程。现实情况是，尽管人工智能已真正改变了视听识别等领域，但鉴于人工智能为理解语言提供了强大的新工具，并首次提供了具有微弱直觉的算法，但迄今为止，绝大多数商业人工智能应用程序在现实应用中往往没有获得多少改进。与传统方法相比，如果那些系统一开始就得到正确构建，那么这些程序将很快被替换。
    如今，很多人对深度学习感兴趣，并赋予它几乎神话般的超人能力。企业急于在每个项目上采用人工智能这样的新兴技术。即使一些面临风险，传统行业也在积极采用人工智能技术，例如，在每个成功提案中都需要“社交媒体”的资助机构现在需要在某个地方采用“深度学习”，甚至考虑为每个项目提供资金，无论人工智能对解决目前的问题是否具有适用性。
    在公众意识和企业高管的通常想法中，人工智能被描述为类似人类的算法，这些算法对于人类来说比较初级，不够智能，但这些算法不断进行改进，并且可以通过更多的训练数据来进行学习和修复。
    当然，现实情况是当今的深度学习算法更多的是艺术而不是科学。精确度的提高不仅来自于盲目地将更多的训练数据投入算法，还来自于仔细选择的训练数据、错综复杂的调整、实验测试，以及一些运气。而成功的算法是一个谜，即使是算法的创作者也不能完全理解，也不能在其他领域自动复制。即使是最准确的模型也会如此脆弱，以至于最轻微的改变或恶意干预都会使它们偏离轨道。
    如今的人工智能系统并不具备人类一样的头脑，是一种基本的统计封装，只是比过去的方法更强大、能力更强，这与计算机诞生以来所做的事情相比并没有什么不同。
    在视听分析等一些领域，深度学习方法具有真正的变革性，允许机器在理解和生成图像、语音和视频方面达到精确水平，而这些在几年前是无法想象的。神经视觉系统可以识别车辆的品牌和型号，即使在遍布武器、旗帜、士兵、枪支的战场图片中，可以理解地上的枪，指向空中的枪和指向人的枪之间的区别。它可以估计照片拍摄的地理位置，即它看起来与以往看到的训练图像有很大不同。它还可以创建出人性化的新图像或语音。
    这是真正的应用人工智能革命发生的地方，为机器理解开辟了新的模式。
    与此同时，使用人工智能进行普通的文本和数字分析并不总能显示出更高程度的变革。就像它取代的统计机器翻译（SMT）一样，神经机器翻译（NMT）在良好的情况下可以达到类似人类的流畅程度，但在其他情况下却失败了。虽然神经机器翻译（NMT）系统确实可以在学术竞赛中获得更高的BLEU分数，但是当应用于日常的实际日常内容时，其收益并不一定显著，因为它们会在混乱的理解中混淆不清。
    问题在于，神经机器翻译（NMT）就像其前身统计机器翻译（SMT）一样，只是盲目地应用从大量训练数据中学到的统计模式。神经机器翻译（NMT）系统只能应用学习模式将一组符号转换为另一组符号，就像模仿艺术家画作的孩子一样，在纸上通过颜色和形状进行模仿，却不了解他们想要绘制的内容。与人类翻译不同，当今的神经模型实际上并不理解它们正在阅读的概念和思想的深层含义，他们只是像统计机器翻译（SMT）方法一样识别符号的模式。神经机器翻译（NMT）系统在识别更复杂的模式、执行更复杂的重新排序，以及在更大的文本窗口中操作的能力方面具有相当优越的性能，但即使是神经机器翻译（NMT）系统仍然主要在句子级别或单独的小块文本中运行。人们还有很长的路要走，更加完善的神经机器翻译（NMT）系统可以读取整个文本段落，将其提炼为它所讨论的抽象概念和观点，然后将其完全从基于思想的抽象表示形式转换为另一种语言，带来语境和消除歧义、语境化和框架的知识。
    此外，大多数语言缺乏训练数据意味着，即使是最前沿的神经机器翻译（NMT）系统仍然像许多语言的统计机器翻译（SMT）系统一样失败，或者遭受同样的段落不流畅问题，这些问题将会隔一定时间出现，这使得它们的关键论点无法被理解。
    神经文本处理作为一个整体遭受着过程对结果的影响。企业相信，深度学习解决方案将胜过任何其他解决方案，因此应不惜一切代价寻找深度学习解决方案，却没有认识到并非每个问题都适合当前的神经方法。
    很多公司为最基本的任务构建深度学习解决方案，例如识别特定人员或提及的公司名称。当被问及庞大而昂贵的深度学习模型是否优于简单的关键字搜索名称和一些变体时，往往他们从未真正尝试过答案，他们只是假设神经元才是前进的方向。如果完全执行最终基准测试，通常表明采用神经方法实际上不太准确，因为它对文本中的拼写错误和语法错误过于敏感，缺乏足够的训练数据来获取大多数边缘情况。
    神经实体识别、分类、地理编码和情感分析都是即使是最前沿的算法也经常难以超越编写良好的经典方法的领域。关键是那些商业部署编写的并不太好。
    大多数用户匆忙地将自己制作的规则或数据匮乏的贝叶斯模型混杂在一起。实际上，这是一种罕见的经典算法，它是从域向下构建的，而不是从代码向上构建的。特别是情感算法已经注重由程序员构建的简单易用的代码算法，而不是退后一步，与心理学家和语言学家一起工作，以理解人类如何交流情感，并构建工具来捕捉这些现实世界的复杂性和细微差别。
    在这种情况下，神经方法可以帮助标准化模型创建并将其强制转换为更强大的数据实践，但其好处通常主要来自创建工作流程的更改，而不是神经方法本身的功能。实际上，对于许多公司而言，深度学习方法的最大好处不是来自神经网络的能力，而是来自当前模型构建工作流程强制执行的以数据为中心标准化的创建过程。
    在过去半个多世纪的深度学习革命过程中，人们几乎把每一项可以想象的机器理解任务都运用到100多种语言的文本和视听新闻内容上。从神经学习到经典机器学习，再到人工构建专家规则到进行过α测试的各种方法。根据从生产商业应用到前沿研究实验的一切测试，其结果总是一样的：神经方法为视听内容和选择理解和创建任务提供了巨大的准确性和能力飞跃，但它们可以经常应用于常规文本理解使用精心设计的非神经解决方案，可以使用更少的训练数据和更强大的稳健性来复制或超越。
    问题在于，虽然真正具有能力的深度学习专家比较稀缺，但是能够构建反映其所使用的数据和场景的强大系统的数据科学家数量更少。简而言之，神经方法为许多企业带来了相当大的好处，不是因为使用深度学习，而是因为他们的数据科学工作流程太差，只是专注于算法而不是结果。
    如今面临最大的挑战，可能是像Alphabet公司的DeepMind这样的人工智能研究小组的开创性工作之间的巨大鸿沟。与商业部门构建的死记硬背的深度学习系统相比，这些研究小组正在构建可以学习玩电子游戏的工具，并且展示出直觉。使机器能够推理世界，与外界沟通和理解，快速学习新任务，从示例抽象到更高阶的表示，甚至自己来创建，这些都是深度学习方法所特有的令人难以置信的能力。与此同时，这些与死记硬背分类过滤器和实体提取器相去甚远，它们构成了商业部门深度学习的主要部分。
    综上所述，很多关于人工智能的误解更多的是一种营销炒作而不是现实。很多企业急于将人工智能部署到任何地方，并声称拥有“人工智能驱动的业务”，但是这些神经部署并不总是比取代的经典系统更精确。在许多情况下，他们往往更糟。神经方法确实改变了视听理解，但是当涉及到文本理解时，神经方法并不总是代表着重大的飞跃。随着深度学习的开创性应用最终从DeepMind等应用的研究实验室进入到商业世界，这可能会发生变化，但是现在，一些企业可能会询问深度学习是否真的是给定问题的答案，并进行广泛的基准测试以测试结论是否正确，最重要的是，用户需要重新思考如何创建软件系统，以及将神经方法的创造性和严谨性被用于更传统的数据科学工作流程时将会发生什么。