数据科学平台,Cool!但并不孤独
云报一提到“数据科学家”,都觉得这是一项很酷的职业;而一说到“数据科学”,虽然仅仅一字之差,却让人心生敬畏,感觉有些晦涩甚至是距离感。但是,偏偏有这样一家中国的数据科学平台提供商成了Gartner发布的“Cool Vendors in AI for Fintech in Asia/Pacific”报告中备受推崇的一家“酷公司”,而且是中国大陆地区唯一入选的企业,它就是九章云极。
九章云极身上的“酷元素”
生活中,我们形容一个人酷,可能是因为他标新立异的穿着打扮、特立独行的做事风格,又或是冷冷的带一丝傲娇的气质。九章云极的“酷”究竟表现在哪里呢?
九章云极这个名字本身就透露着一股文艺范儿,极富中国韵味,再细细品味,九章就是九章算法,云极便是云计算与极=,独特的专业韵味此为一酷。九章云极DataCanvas数据科学平台产品的吉祥物是一只可爱的花栗鼠,叫做“八斗”,有才高八斗之意,这听起来也挺酷。九章云极为不同的客户人群提供各种智能化的业务场景,比如信贷资格的审查、预测事故风险、人群分布预警等,诸如此类的智能化应用是不是也挺酷?
数据科学平台是一条逐渐升温的新赛道。以前,人们对数据科学平台的概念认知不清,想酷也酷不起来。2017年,Gartner给出了数据科学平台的明确定义, 提出了数据科学平台不可或缺的四大要素:“数据、算法、数据科学家、业务价值”。
九章云极联合创始人兼CEO方磊
“相比以往,企业客户对数据科学平台的理解确实更加深入。面向具体的业务场景,在数据的基础上加载算法,解决企业的实际业务问题,这才是数据科学平台的真正价值所在。”九章云极联合创始人兼CEO方磊指出,“专注于数据科学平台这条赛道,我们引领未来的发展方向。DataCanvas数据科学平台形成了独有的“四库”方法论,深入而灵活地应用机器学习、深度学习算法,为各行各业的客户带来新的价值。这可能是Gartner最看重的我们身上的‘酷’元素吧。”
从简化应用到提升价值
“用数据解决业务问题,都属于数据科学的范畴。”方磊一语中的。
很多时候,我们容易将数据科学与BI(商业智能)混淆。其实,BI的主要工作是数据的归类和展示,不涉及算法,旨在让人帮助人更好地理解业务,并间接地解决业务问题。数据科学的不同之处在于,它以算法为核心,直接解决业务问题。举个例子,在处理车险理赔时通常需要上传一些相关照片,然而有人会别有用心地上传PS后的照片。面对这种情况,BI只是汇总最后的统计数据,告诉你历史上出现过多少次这种造假行为,而数据科学平台则在照片上传时,通过算法和分析,直接指出哪些照片是PS过的。“BI最终还是要依赖人进行分析,而数据科学平台通过在数据上加载算法,在具体的业务场景中实现闭环,并以自动化的方式解决业务问题。”方磊解释说。
DataCanvas数据科学平台
大数据、人工智能等应用刚兴起时,因为业务场景、技术实现上的复杂性,所以无论是厂商还是企业用户,都将降低应用门槛作为突破口。这是数据科学平台从0到1的演进过程,这项工作九章云极做了四五年,并挣得了第一桶金。在应用壁垒降低到一定程度后,积累了大量专业技术人员,以前可能只有数据科学家能完成的工作,现在具备一定技术能力的人也可以完成,生态发展被提上了议事日程,数据科学平台的发展也过渡到从1到100的跃升阶段。在这个阶段,就要针对具体的业务场景,依靠算法,提升解决业务问题的能力,创造新的价值。正是在这样的背景下,2019年初,九章云极创新性地提出了DataCanvas“四库”——模型仓库、特征仓库、模版仓库和AutoML Recipe仓库的技术组合,可以有效解决行业AI建设的三大难题,包括经验及业务知识融合、模型资产共享和台运维管理,以及场景化知识迁移。
“四库”是九章云极归纳出的一套方法论,它将行业经验、业务知识和数据科学技术有效结合,直接降低客户对资源的依赖和AI建设的成本。方磊表示,数据科学平台落地的一个核心是场景模板化,这样才能在客户中快速复制和交换共享。如果能把九章云极的“四库”方法论变成行业标准,无疑将加速这一进程。基于“四库”,DataCanvas未来还会有重大的版本升级。
“在不同的发展阶段,需要解决的主要矛盾也不同。从0到1的阶段,要实现简化,而在从1到100的阶段,产生价值才是最重要的,这就要求模型更准。为此,必须将业务的Know-How加入进来。”方磊以小微企业信贷分析为例,其模型非常复杂,但仍有大量信贷知识不在模型中,比如隐形负债因素等,而这些知识和业务Know-How很多就来自人的经验和积累,只有将它们融入模型,才能让模型更准确,从而更好地挖掘业务价值。
通向AI的主流路径
按照传统的厂商分类方法,九章云极会被归到大数据厂商阵营。但是最近两年,人工智能成了九章云极的一个新标签。比如,Gartner的“Cool Vendors in AI for Fintech in Asia/Pacific”报告,主要研究的对象是亚太地区将AI增强创新成功商用在金融科技领域的新兴企业,九章云极之所以能够入围,就是因为它在金融领域AI应用方面具有很强的创新能力。再比如,在IDC发布的《IDC MarketScape:中国机器学习开发平台厂商评估》研究报告中,九章云极也位于主要厂商位置。
“AI的定义十分宽泛,机器学习、深度学习都属于AI的范畴。但是AI也分成多个学派,比如其中的符号学派,不借助数据,仅凭符号就能推导出结果。”在方磊看来,AI是一种状态、一个目标,而数据科学是达到这一目标的主流方式和路径。
与很多AI应用类厂商不同,九章云极是一个平台厂商。从2014年开始推出产品,经历了公有云、私有云等不同的交付方式,九章云极在AI应用方面的差异化定位更加清晰。通常来说,数据处理要经过四个主要环节,先建立数据仓库,然后进行数据治理,接下来实现商业智能,最后是借助训练出的模型,自动化地解决业务问题。相关厂商也按照这四个部分进行分类、汇聚。九章云极就处于整个数据价值链条的最后端,也是实现价值的关键。
Gartner从2017年起才将数据科学平台作为专门的研究领域,在此之前,九章云极执着地走过了一段孤独的路程。但是,方磊并不认为数据科学平台是一条孤独的赛道。在国外,数据科学早就形成了一个成熟的生态,厂商间的并购不断,估值70亿美元的数据科学平台企业让人艳羡。
与国外相比,中国在数据科学领域还有较大差距,主要体现在:美国现有两三百万名数据科学家,很多公司都有专门的数据科学团队,有的还设立了CDO(首席数据官)的职位,但是中国的数据科学家稀缺,人才成了瓶颈;美国的客户具备较强的技术能力,倾向于在标准化的软件产品之上自己进行集成和开发,而中国客户更喜欢端到端的解决方案和服务,有时还需要厂商提供具体的模型,这是生态和应用不成熟的一种表现。
为了满足中国客户的需求,九章云极一方面为大型企业客户提供平台化的产品;另一方面除了为中小企业客户提供整体解决方案以外,还提供具体的模型。“我们上不碰企业的业务,下不碰企业的数据,而是专注于提供数据科学平台和模型。”方磊表示,“数据科学平台的重心在算法上,而不是简单地提供数据统计和汇总功能。从数据到业务,数据科学平台是中间的桥梁,将逐步深入到各个场景中。”
企业客户从自己需求的角度看数据科学平台,会有不同的理解。比如,从业务的角度,有人认为数据科学平台就是一个模型工厂;从管理的角度,有人将数据科学平台当成管理数据科学家的OA,可以更好地将数据科学家组织起来,发挥其价值。不管如何描述数据科学平台,各行业已经达成了一个基本共识:借助数据科学平台,可以找到业务的价值点。
从“酷”到主流
在数据科学平台的赛道上,九章云极是不是要跑得再快一些?方磊认为:“to B类型的企业还是要依靠积累效应。2019年,我们完成了新一轮融资,并且连续保持年增长100%。未来,我们仍将按照自己的节奏发展。”
不仅数据科学家这一职业酷,数据科学这项事业更酷,他们都是为了智能世界的明天更加美好。但在方磊看来,什么时候人们不再谈论数据科学、数据科学家酷不酷这个话题,就说明数据科学已经成了主流,被各行各业的用户所接纳,以九章云极为代表的数据科学平台厂商的好日子才算是真正到来。