倍赛科技CTO刘世林博士:Data-Centric MLOps是企业AI实践的新范式
人工智能行业现状
人工智能已经历十几年的快速发展,尤其是近些年,人工智能在大数据、大模型的深度学习之路上一路高歌猛进,目前已经形成了用大数据代替经验、用算法挖掘知识、用并行计算确保模型训练的可行性的基本范式。
现在有大量的基于感知能力的AI模型已经广泛应用于各行各业,但是目前人工智能还只是“弱人工智能”,很多核心问题依然没有解决,比如如何让模型具备真正的理解能力。
从技术上看,人工智能的应用呈现出工程化的趋势。由于多元的人工智能应用场景日益增多,用户体验要求越来越高,对于迭代速度的要求也有所提升,传统的开发方式已经无法满足企业客户的需求,同时由于迁移能力的限制,不同场景的问题仍需要大量的定制模型的开发。
为适应人工智能工程化的需求,人工智能势必将和数据有更加紧密的联系。现在70%-90%的AI工程师把时间和精力都用在数据而不是模型代码上,模型已经不再是工程应用方面的最大瓶颈,而训练数据已成为机器学习工程师全新的挑战。
与此同时,新算法不断涌现,预训练模型正在蓬勃发展,推动了技术效果不断提升,虽然降低了标注数据的门槛,但计算成本有所上升。另外,大规模模型近年也成为研究热点之一,模型参数规模指数从亿级发展到万亿级的增长,算法模型大量开源,使得云计算的成本下降,而人力成本逐渐飙升。
Data-Centric MLOps
在这样一个大背景下,倍赛科技CTO刘世林博士总结了企业在人工智能工程应用方面的两大实践方向。
一个是基于中小型的模型,配合较多的“好数据”和较低的计算资源;另一个方向则是使用大模型,用较少的“好数据”和较多的计算资源。可以看出,两个实践方向的核心都离不开“好数据”,所以,刘世林博士推荐企业AI的工程实践围绕Data-Centric MLOps的应用策略展开,更加便捷、高效地实现人工智能落地应用和产品交付。
Gartner预测:“到2025年,人工智能和数据科学平台市场将以21.6%的复合年增长率增长到超过100亿美元,基于Data-Centric MLOps的巨大市场潜力,倍赛科技重新定义了企业战略方向,将面向全球提供AI赋能的Data-Centric MLOps软件基础设施,从数据采集、数据标注、数据治理、模型验证和模型开发的各个环节,提供了一体化、全方位的技术软件与服务体系,使用AI的能力加强软件实力的同时,加强高质量数据的处理和生产,帮助客户快速完成数据与模型迭代,高质量、高效率实现AI场景落地。
作为公司实施Data-Centric MLOps战略的第一步,倍赛科技重新设计并研发了新一代多模态数据标注平台X1。X1平台集成了大量的AI能力,提供了完整且功能强大的“数据标注工具集”, 可同时满足自动驾驶、遥感、医疗等精细化、高量级的数据需求,工具集及AI质检及预标注模块可提升至少30%的效率。同时,平台内置了数十套模型库,一键训练及部署模型,打破从数据到模型的技术鸿沟,底层海量存储及传输积累了大量原创技术,成为建模业务坚实产品基础,助力企业AI快速落地,落地周期缩短75%,成本节省65%。
目前倍赛科技已经完成了从“标注平台”到“一体化AI基础设施方向”的晋阶,后续会在练好“产品功”的基础上,探索更上层的“垂直解决方案”,构建最易于访问的Data-Centric MLOps,用于连接人、模型和数据。