倍赛科技CTO刘世林博士：Data-Centric MLOps是企业AI实践的新范式

2024.03.31

    人工智能行业现状
    人工智能已经历十几年的快速发展，尤其是近些年，人工智能在大数据、大模型的深度学习之路上一路高歌猛进，目前已经形成了用大数据代替经验、用算法挖掘知识、用并行计算确保模型训练的可行性的基本范式。

    现在有大量的基于感知能力的AI模型已经广泛应用于各行各业，但是目前人工智能还只是“弱人工智能”，很多核心问题依然没有解决，比如如何让模型具备真正的理解能力。
    从技术上看，人工智能的应用呈现出工程化的趋势。由于多元的人工智能应用场景日益增多，用户体验要求越来越高，对于迭代速度的要求也有所提升，传统的开发方式已经无法满足企业客户的需求，同时由于迁移能力的限制，不同场景的问题仍需要大量的定制模型的开发。
    为适应人工智能工程化的需求，人工智能势必将和数据有更加紧密的联系。现在70%-90%的AI工程师把时间和精力都用在数据而不是模型代码上，模型已经不再是工程应用方面的最大瓶颈，而训练数据已成为机器学习工程师全新的挑战。
    与此同时，新算法不断涌现，预训练模型正在蓬勃发展，推动了技术效果不断提升，虽然降低了标注数据的门槛，但计算成本有所上升。另外，大规模模型近年也成为研究热点之一，模型参数规模指数从亿级发展到万亿级的增长，算法模型大量开源，使得云计算的成本下降，而人力成本逐渐飙升。
    Data-Centric MLOps
    在这样一个大背景下，倍赛科技CTO刘世林博士总结了企业在人工智能工程应用方面的两大实践方向。

    一个是基于中小型的模型，配合较多的“好数据”和较低的计算资源；另一个方向则是使用大模型，用较少的“好数据”和较多的计算资源。可以看出，两个实践方向的核心都离不开“好数据”，所以，刘世林博士推荐企业AI的工程实践围绕Data-Centric MLOps的应用策略展开，更加便捷、高效地实现人工智能落地应用和产品交付。
    Gartner预测：“到2025年，人工智能和数据科学平台市场将以21.6%的复合年增长率增长到超过100亿美元，基于Data-Centric MLOps的巨大市场潜力，倍赛科技重新定义了企业战略方向，将面向全球提供AI赋能的Data-Centric MLOps软件基础设施，从数据采集、数据标注、数据治理、模型验证和模型开发的各个环节，提供了一体化、全方位的技术软件与服务体系，使用AI的能力加强软件实力的同时，加强高质量数据的处理和生产，帮助客户快速完成数据与模型迭代，高质量、高效率实现AI场景落地。
    作为公司实施Data-Centric MLOps战略的第一步，倍赛科技重新设计并研发了新一代多模态数据标注平台X1。X1平台集成了大量的AI能力，提供了完整且功能强大的“数据标注工具集”，可同时满足自动驾驶、遥感、医疗等精细化、高量级的数据需求，工具集及AI质检及预标注模块可提升至少30%的效率。同时，平台内置了数十套模型库，一键训练及部署模型，打破从数据到模型的技术鸿沟，底层海量存储及传输积累了大量原创技术，成为建模业务坚实产品基础，助力企业AI快速落地，落地周期缩短75%，成本节省65%。
    目前倍赛科技已经完成了从“标注平台”到“一体化AI基础设施方向”的晋阶，后续会在练好“产品功”的基础上，探索更上层的“垂直解决方案”，构建最易于访问的Data-Centric MLOps，用于连接人、模型和数据。