一文了解如何揪出并预防AI偏误

2024.03.26 51CTO

    任何AI应用的成功都与训练数据密切相关。您不仅需要合适的数据质量和合适的数据量，还要主动确保您的AI工程师没有将自己的潜在偏误传递到开发的产品上。如果工程师任由自己的世界观和成见影响数据集——也许提供仅限于某个统计人群或焦点的数据，依赖AI解决问题的应用系统将同样有偏误、不准确、用处不大。
    简而言之，我们必须不断检测并消除AI应用系统中的人为偏误，才能让这项技术发挥潜力。我预计，随着AI继续从一种比较新的技术迅速变成一种完全无处不在的技术，偏误审查力度只会有增无减。但必须克服人为偏误才能真正实现这一幕。Gartner在2018年的一份报告预测，到2030年，85％的AI项目将提供数据或算法中内置的偏误或管理那些部署的团队中存在的偏误所导致的错误结果。事关重大；错误的AI会导致声誉严重受损，并给基于AI提供的错误结论做出决策的企业带来惨重的失败后果。
    AI偏误有多种形式。源自开发人员的认知偏误会影响机器学习模型和训练数据集。实际上，偏误固化到算法中。不完整的数据本身也会产生偏误——如果信息因认知偏误而被忽略，尤其如此。一个在没有偏误的情况下训练和开发的AI投入使用时，其结果仍有可能受到部署偏误的影响。汇总偏误是另一种风险，当针对AI项目做出的小选择对结果的完整性产生巨大的集体影响时，就会出现这种情况。简而言之，任何AI环节都有许多固有的步骤会被引入偏误。
    为了实现可信赖的依赖AI的应用系统，可以面对无数用例（和用户）始终如一地获得准确的输出，组织就需要有效的框架、工具包、流程和政策来识别和积极减少AI偏误。可用的开源工具有助于测试AI应用，看看数据中是否存在特定的偏误、问题和盲点。
    AI框架。旨在保护组织免受AI偏误风险的框架可以引入制衡机制，最大限度地减少整个应用开发和部署过程中的不当影响。可以使用这些框架，将可信无偏误实践的衡量基准实现自动化，并植入到产品中。
    这里有几个例子：
    工具包。组织还应该利用可用的工具包来识别和消除机器学习模型中存在的偏误，并识别机器学习管道中的偏误模式。以下是一些特别有用的工具包：
    流程和政策。组织可能需要引入专门设计的新流程，以消除AI的偏误并加大对AI系统的信任。这些流程定义了偏误度量指标，并根据那些标准定期彻底地核查数据。政策应该发挥一种类似的作用，建立治理机制，要求严谨的实践和谨慎的行动，以最大限度地减少偏误和解决盲点。
    那些采取措施以减少AI系统中偏误的组织可以将这种潜在的危机转化为获取竞争差异化优势的机会。倡导反偏误措施可以使客户对AI应用系统抱有更大的信心和信任，从而使组织与众不同。今天尤其如此，而随着AI遍地开花，将更是如此。在追求无偏误的AI方面确保透明度有利于企业发展。
    先进的新AI算法正将AI带入新领域——从合成数据生成到迁移学习、强化学习、生成式网络和神经网络，不一而足。这每一个令人兴奋的新应用对偏误影响都会有各自的敏感性，必须先解决这些问题，这些技术才会蓬勃发展。
    就AI偏误而言，错不在AI而在我们自己。应采取所有可用的措施以消除AI中的人为偏误，使组织能够开发出更准确、更有效、对客户更有吸引力的应用系统。
    原文标题：AI bias is prevalent but preventable — here’s how to root it out，作者：Shomron Jacob， Iterate．ai
    【51CTO译稿，合作站点转载请注明原文译者和出处】
    来源：51CTO布加迪