想使用人工智能和机器学习吗？需要正确的基础设施

2024.06.02

    IT部门的任务是支持人工智能和机器学习计划，这需要广泛考虑当前和未来的基础设施需求。
    人工智能（AI）和机器学习（ML）是新兴领域，将会以前所未有的速度改变企业的发展。在数字时代，可以使用分析技术发现大量数据中的关键见解。
    在以往，这些见解是用人工密集型的分析方法发现的。如今，由于数据量继续增长以及数据的复杂性，这不会起到更大的作用。人工智能（AI）和机器学习（ML）是数据科学家的最新工具，使他们能够更快地将数据转化为价值。
    数据爆炸需要人工智能（AI）和机器学习（ML）
    从历史上看，企业使用大型记录系统生成的一小组数据进行操作。如今的环境完全不同，其中有更多的设备和系统生成他们自己的数据，可用于分析。企业面临的挑战是需要分析的数据太多，而在日益数字化的世界中竞争的唯一方法是使用人工智能（AI）和机器学习（ML）。
    人工智能（AI）和机器学习（ML）用例因垂直领域而不同
    虽然没有通用的“杀手级应用程序”，但人工智能（AI）和机器学习（ML）适用于大多数垂直领域。因此有许多适用于各种行业的关键用例。常见用例包括：
    医疗保健——快速诊断MRI扫描的异常检测
    汽车——分类用于识别道路中的物体
    零售——可以准确预测未来的销售额
    联络中心——翻译使坐席能够用不同的语言与人类交谈
    基础设施所需的高质量数据
    无论用例如何，人工智能（AI）和机器学习（ML）的成功取决于在基础设施方面的正确选择，这需要了解数据的作用。人工智能（AI）和机器学习（ML）的成功很大程度上取决于输入系统的数据质量。人工智能行业有一个公理，即“糟糕的数据会导致糟糕的推论”，这意味着企业应该关注如何管理数据。因此可以将这个公理扩展到“良好的数据导致良好的推论”，而在此强调的是，需要采用正确的基础设施来确保数据“良好”。
    尽管使用的数据类型可能不同，但数据在人工智能（AI）的每个用例中都起着关键作用。例如，通过让机器学习在企业生成的大数据湖中找到见解，可以推动创新。事实上，企业可以在数据科学的基础上培养组织内部的新思维。关键是要了解数据在人工智能（AI）和机器学习（ML）工作流程的每个步骤中所起的作用。
    人工智能（AI）和机器学习（ML）工作流程具有以下组件：
    数据收集：数据聚合、数据准备、数据转换和存储
    数据科学／工程：数据分析、数据处理、安全和治理
    训练：模型开发、验证和数据分类
    部署：执行推断
    数据面临的最大挑战之一是实时构建数据管道。使用新数据源进行探索和发现工作的数据科学家需要收集、准备、建模、推断。因此，IT需要在每个阶段进行更改，并且从更多来源收集更多数据。
    同样重要的是，工作流是一个迭代循环，其中部署阶段的输出成为数据收集的输入，并改进模型。通过这些阶段移动数据的成功在很大程度上取决于拥有适合的基础设施。
    支持人工智能（AI）和机器学习（ML）的基础设施的关键考虑因素
    位置：人工智能（AI）和机器学习（ML）并不只在云平台中进行，也不只在现场处理。这些举措应该在给定输出最有意义的位置执行。例如，机场安检的面部识别系统应该在本地进行分析，因为将信息发送到云平台并返回所花费的时间会增加该过程的延迟。因此，组织需要确保将基础设施部署在云端、本地数据中心以及边缘，而优化人工智能计划的性能是至关重要的。
    高性能基础设施的广度：如前所述，人工智能性能高度依赖于基础设施。例如，与传统的中央处理单元（CPU）相比，图形处理单元（GPU）可以将深度学习的速度提高100倍。服务器供电不足将导致流程延迟，而过度供电则会浪费电力成本。无论策略是端到端还是最佳策略，都要确保计算硬件具有正确的计算处理能力以及高速存储设备。这需要组织选择具有广泛产品组合的供应商，其产品组合可以解决任何阶段人工智能流程中出现的问题。
    经过验证的设计：基础设施显然非常重要，但运行的软件也是如此。一旦安装了软件，可能需要几个月的时间来调整和优化以适应底层硬件。组织需要选择预先安装软件并具有经过验证的设计的供应商，以便缩短部署时间，并确保性能得到优化。
    数据中心的扩展：人工智能基础设施并不是孤立存在的，应被视为当前数据中心的一种扩展。在理想情况下，企业应该寻找可以使用现有工具进行管理的解决方案。
    端到端管理：没有单一的人工智能技术可以投入，并开启采用人工智能过程。它由若干移动部件组成，其中包括服务器、存储、网络和软件，并且在位置方面有多种选择。最好的解决方案应该是整体解决方案，它包含可以通过单一界面管理的所有或大多数组件。
    网络基础设施：在部署人工智能时，组织需要将重点放在支持GPU的服务器、闪存存储和其他计算基础设施上。这是有道理的，因为人工智能处理器和存储设备部署非常密集。但是，必须为存储系统和服务器提供遍历网络的数据。人工智能的基础设施应被视为一个“三足凳”，其中的三条腿分别是网络、服务器和存储。每个组件的进步都必须快速地相互跟进。任何一个组件的滞后都会影响性能。因此，组织应该对网络实施与服务器和存储设备相同的尽职调查。
    安全性：人工智能通常涉及极其敏感的数据，如患者记录、财务信息和个人数据。泄露这些数据可能对组织造成灾难性后果。此外，输入不良数据可能会导致人工智能系统做出错误的推断，从而导致有缺陷的决策。必须使用先进的技术从头到尾保护人工智能基础设施。
    专业服务：专业服务应该是基础设施决策的一部分。大多数组织，尤其是缺乏经验的组织，在人工智能方面都没有必要的技能。服务合作伙伴可以在人工智能生命周期内提供必要的培训、咨询、实施和优化服务，并且应该是部署的核心组件。
    广泛的生态系统：人工智能供应商与具有广泛生态系统的供应商进行合作至关重要，并且可以将人工智能的所有组件结合在一起，以提供完整、交钥匙的端到端解决方案。而拼凑这些组件可能会导致业务延迟甚至失败。因此，选择具有强大生态系统的供应商可以快速实现成功。
    从历史上看，人工智能（AI）和机器学习（ML）项目由数据科学专家负责运营，但随着这些技术进入应用主流，它们正在迅速向IT专业人员过渡。随着正在发生的转变，以及人工智能（AI）计划变得更加普及，IT组织应该更广泛地考虑支持人工智能（AI）的基础设施。而不是为特定项目购买服务器、网络基础设施和其他组件，组织目标应该是更广泛地考虑当前和未来的业务需求，类似于当今数据中心的运行方式。