丨趋势丨下一代 AutoAI：算法的迭代变成数据的迭代

2024.04.18 Ai芯天下

    前言：
    深度学习问世以来，随着神经网络架构趋于固定和成熟，转而寻找改进数据的方法，已经成了AI 研发的新出口。
    AutoAI自动执行高度复杂的任务，为数据寻找并优化最好的机器学习模型、特征和模型超参数。
    作者｜方文
    图片来源｜网络
    AutoAI在人工智能全生命周期中自动建模
    AutoAI是最先进的自动化机器学习产品可以有效地分析历史数据，创建自定义机器学习管道并对其进行排名。
    它包括自动化特征工程——可扩展和增强数据的特征空间以优化模型性能。
    AutoAI可以在几分钟内完成通常需要整个数据科学家团队数个小时到数天才能完成的工作。自动化功能包括数据准备、模型开发、特征工程和超参数优化。
    整个建模过程端到端的自动化可以显著节省资源。AutoAI显著提高了生产力，只需点击几下鼠标，即使是只有基本数据科学技能的人，也可以使用自定义数据自动选择、训练并调优高性能机器学习模型。
    然而，专业的数据科学家可以快速迭代可能的模型和管道，并试验最新的模型、特征工程技术和公平算法，无需从头开始编写管道代码就可以完成这一切。

    数据科学家的新语义能力
    数据科学家理解了数据的语义，就有可能利用领域知识来扩展特征空间，从而提高模型准确性，这种扩展可以使用来自内部或外部数据源的补充数据来完成。
    AutoAI检测到正确的语义概念，程序就会使用这些概念广泛搜索现有代码、数据和文献中可能存在的相关特征和特征工程操作。
    AutoAI可以使用这些新的、语义丰富的特征来提高生成模型的准确性，并通过这些生成的特征提供可供人类阅读的解释。
    即使没有评估这些语义概念或者新功能的专业知识，数据科学家们还是可以试用AutoAI。但是，想要理解发现的语义概念并与之交互的数据科学家可以使用Semantic Feature Discovery（语义特征发现）可视化资源管理器来探索发现的关系。

    AutoAI 的三个阶段
    第一阶段：模型设计、调参自动化
    当前，很多学者都已经注意到，学术界或者工业界的优秀人才所聚焦的研发，花费太多时间用于模型结构设计以及调参，但实际上它本不应该成为研究的主要内容。有没有一种自动化的方法，让深度学习的网络架构在面对一个问题的时候，能自主的演化其架构，这才是关键。
    第二阶段：简单模型训练的软件化
    第一阶段的自动化主要面向专业的算法研究人员，第二阶段的系统化则面向一般的 AI 从业人员。主要目标是在给定标注好的数据的情况下，通过可视化的操作界面实现模型的训练。
    第三阶段：数据迭代自动化
    在算法设计自动化的基础上，正在发生一些变化。模型和数据到底哪一个更重要，在设计化的工业生产中，以模型为中心的技术研发已经转化成以数据为中心的技术研发。
    数据的迭代越来越重要
    在工业化大规模发展中，大家正在慢慢地从模型为中心的生产转化为以数据为中心。
    可从两个维度来提高它的性能，一是以模型为中心的方法，即想尽各种办法提高模型设计的复杂度、技术含量等；
    二是以数据为中心的方法，比如加数据（加数据也是有一些科学方法的，并不是加了数据后性能一定会提高）、检查数据有没有问题等等。
    会发现，以数据为中心的方法比以模型为中心的方法能更多地提高性能。
    做模型生产时也得到这样一个结论：越到后面，数据的迭代越来越重要。因为所有模型的服务实际上是针对某一个特定场景，使用的是特定的数据。

    结尾：AutoAI未来适配率极高
    如今，有自动化 AI 模型生产平台需求的，已经不仅仅是谷歌、微软、Meta、IBM、苹果等大公司了，我们国内就有不少房地产公司开始投入 AI。他们都有人才的需求，自动化的 AI 可以降低他们的成本。地产公司、物业公司，以及像宁德时代这样做电池的公司，都在慢慢引入AI来解决实际问题。
    AI是一个非常基础的能力，可以提高我们做事情的效率，AI并不改变行业，但是可以提升所在行业的生产效率，所以这种影响是全方位的，已经慢慢地波及到非技术类公司了。
    更不用说现在广泛的制造业，制造过程中的很多环节都可以利用到AI的能力。如果想提高自己的国际竞争力，提升自己的生产质量，就需要AI的能力去赋能生产。
    部分内容来源于：雷锋网：下一代 AutoAI：从模型为中心，到数据为中心；至顶头条：IBM的AutoAI让数据科学家更高效，但可怕的是它正在变得太智能了；AI科技评论：下一代AutoAI：从模型为中心，到数据为中心