深度学习暗战:为何说百度飞桨是“国货之光”
Alter聊IT近年来,无论是生活还是生产,AI的身影无处不在,人工智能所带来的世界新一轮科技革命和产业变革曙光已现,正在引发全球经济结构的重塑,并与我国发展方式的转变形成了历史性交汇。
与此同时,AI技术背后的争夺战也成为了各方关注的中心,其中深度学习框架作为AI时代的“操作系统”已经暗潮汹涌。然而透过现象看本质,这场属于技术流的战争却值得我们深入思考。
全球权威咨询IDC在《中国深度学习平台市场份额调研》中,对国内的深度学习平台给出了详细的市场解析:在AI技术使用方面,接受调研的企业和开发者中,86.2%选择使用开源深度学习框架。
不难看出,深度学习平台已经开始备受信赖。然而信赖背后的“依赖”也开始成为隐患。
IDC还指出,在国内深度学习框架的使用上,谷歌、Facebook、百度虽然占据了国内绝大部分市场份额,但是来自国外的深度学习平台仍处于较大的领先优势。
也就意味着,在现阶段的深度学习框架市场,我们处于和移动互联网时代相同尴尬的境地——过度依赖他国技术。
倘若深度学习框架被“断奶”,会产生什么样的影响?
可以打这样一个比方:深度学习就像是一道菜谱,数据是肉和蔬菜,深度学习框架就是炒菜的锅和铲子,如果被人拿走了锅和铲子,再高明的厨师也无法炒出一道像样的菜。
芯片已经让不少中国企业和开发者有了覆舟之戒,深度学习框架却刚刚引起关注。
为什么要关注深度学习平台?
自然而然的,深度学习框架也就成了“兵家必争之地”。
目前已经出现了Caffe、TensorFlow、飞桨(PaddlePaddle)、PyTorch等几十种开源框架。尤其是谷歌2015年底在GitHub上正式开源的TensorFlow,几乎是当下使用最广的深度学习框架。
谷歌对于TensorFlow的推广不无成功,选择使用TensorFlow的企业中,不乏网易、京东、360、联想、美团等中国的科技企业。
但业界也出现了警惕TensorFlow的声音。
比如亚马逊、Facebook等对TensorFlow的封闭深恶痛绝,分别推出了MxNet、PyTorch等深度学习框架,希望以兼容性和开放优势,打破谷歌一骑绝尘的格局;
苹果也为自家开发者引入了BNNS 和 MPSCNN两个深度学习框架,并在GitHub上发布了一个名为Turi Create的机器学习框架,降低AI开发的门槛,也为避免在人工智能的赛道上被谷歌扼住喉咙。
原因似乎不难理解,虽然TensorFlow是开源的,TensorFlow已经与谷歌生态深度绑定,不排除会出现类似Android的局面。同时在商业层面上,谷歌为了卖自家的TPU,会不会逐渐放弃对其他GPU的支持?如果哪家公司在智能驾驶等核心技术上有赶超谷歌的趋势,是否存在在TensorFlow层面被谷歌打压的可能。
借鉴谷歌在Android问题上对华为的态度,那些深度依赖TensorFlow的开发者,无疑也处于一种高度不确定之中。
来自中国的“全尺寸轮胎”
与其信任他人“不作恶”的承诺,不如技术自立。
经济学家何帆曾给出了这样的预言:现在的“备胎”还只是出现在男女关系中,未来将是科技界使用最多的一个名词。
深度学习框架有些例外,中国的企业早在未雨绸缪。早在2016年的时候,百度就将飞桨开源,以免将命运假于他人之手。国家也对此非常重视,国家发改委在2017年批复,国内唯一的深度学习技术及应用国家工程实验室由百度牵头筹建。
目前,飞桨不仅是中国首个,也是目前唯一开源开放、功能完备的端到端深度学习平台。
这个集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台,囊括支持面向真实场景应用、达到工业级应用效果的模型,针对大规模数据场景的分布式训练能力、支持多种异构硬件的高速推理引擎等,并在不久前一次性发布11项新特性及服务,包含PaddleNLP、视频识别工具集、Paddle Serving、PaddleSlim、AutoDL Design等多种深度学习开发、训练、预测环节的“硬通货”,满足不同层次开发者的研发和创新需求。
相比于其他开源的深度学习框架,飞桨最大的特点在于easy to use,对很多算法进行了完整封装,开发者只需要略微了解下源码原理,导入自己的数据就可以执行运行的命令。
有了飞桨这样的“全尺寸轮胎”,中国AI不缺少飞速前行的可能。
百度也积极通过产学研联动推动飞桨的大范围落地,通过师资培训班,AI赛事等举措,帮助近百所高校成功开设人工智能课程,直接惠及近万名学生,为未来的AI话语权争夺战打下了良好的基础。而飞桨在产研联动的过程中,不仅仅作为教学工具助推教育,也在进一步减少开发者对外国深度学习框架的依赖。
经历几年的积累后,飞桨的一系列落地应用正在改变着各行各业:
在农业领域, 精确的地块识别和分割在农业有非常重要的意义,有利于根据遥感数据对作物长势、作物分类、成熟期预测、灾害监测、估产等工作进行高效辅助,目前为止的绝大部分地块分割都是靠人力进行的。比如中科赛诺应用飞桨对农业遥感数据进行图像分割,对耕地面积进行提取,从而进行有效的估产并辅助相关其它农事活动。
在工业领域,合金熔炼的过程中,合金元素会根据炉内温度、熔炼时间等因素发生无法用机理进行判断和解释的变化,传统合金熔炼环节大多由有经验的师傅进行补料,需要多次实验和调整。精诺数据基于飞桨平台研发了IAPBOA算法,利用历史配料数据建模,通过机器学习优化企业个性化配料方案,最终达到生产质量和生产成本的最优平衡点,从而指导熔炼生产,减少对经验的依赖,达到提升熔炼效率、节省原材料的效果。
这样的案例还有很多很多,也正因为如此,深度学习平台几乎决定了AI未来应用的走向。
某种意义上说,中美的人工智能竞赛很可能会演化成一场“框架之争”。假如中国不在深度学习平台市场占据一席之地,完全依赖国外,系统的透明性将逐渐消失,国外企业将成为全世界数据、硬件、编译器的标准制定者。特别是人工智能的应用涉及到安防、识别、城市交通、公共服务等国家事务,把这些应用放在国外平台上开发,安全风险不言而喻。
除了产业链风险,中美在人工智能的应用需求上也存在很大的差异,像TensorFlow在语音交互、神经网络翻译等核心技术上,很少有中文数据集以及中文领域的技术探索。换而言之,只有深谙中国开发者需求和中国AI市场生态的深度学习框架,才是适合中国智能时代的“操作系统”。
写在最后
在贸易冲突愈演愈烈的大背景下,全球商业环境已经存在很大的不确定性,尤其是走在世界前沿的中国科技产业,“拿来主义”的做法早已不再适用。
PC系统,我们已经有了同方科技与清华大学共同研发的开源桌面操作系统OPENTHOS;移动系统,华为传说中的“鸿蒙”历经十年打磨,即将显出锋芒;而AI系统,也就是深度学习框架,也需要独立自主,百度飞桨可能就是这道难题目前的最优解。
欣慰的是,华为和百度企业走到了一起,飞桨和麒麟芯片,两个“国货之光“正在进行强强联合。
或许在芯片和底层技术上,中国还有很长一段路要走,但在人工智能、5G、IoT等未来场景的争夺上,中国企业还需要在基础和关键技术上下苦工,避免在沙滩上起高楼,被别人牵着鼻子走。
我们需要的是属于自己的“国货之光”。