推动中国AI 开发进入黄金时代,华为云底气何在
砍柴网为期两天的 AICon 全球人工智能与机器学习技术大会已落下帷幕,作为一场面向各行业 AI 中高层技术人员的盛会,历年 AICon 都吸引了业界顶级公司参与其中,今年也不例外,包括华为、AWS、阿里巴巴、腾讯等公司的 AI 专家们齐聚一堂,共同探讨围绕 AI 的产业变革机会与技术创新方向。
这场大会上所展示的 AI 落地案例、AI 技术实践以及 AI 的工业化应用,都在强调一个事实:站在 2019 年 11 月的时间点去看,AI 之于各个行业的意义已经不再是「是否有价值」,而是变成了「如何让 AI 变得更有价值」。
与此同时,在 5G 商用元年,全新通讯技术带来的巨大潜力,正在传递到产业的各个链条,而云计算的持续进化,已经深刻影响到了从政府到大型企业的方方面面。
这也留给行业一个命题:当 5G、AI 与云共同定义了这个时代,各个行业应用 AI 的第一步从哪里开始?
参与这场大会的华为云给出了自己的一个回答:利用华为云的全栈全场景 AI 能力,开发者、企业可以快速驶入 AI 开发、部署与应用的赛道。
据了解,此次大会上,华为云进一步展示了其全栈全场景的 AI 解决方案。具体来说,「全栈」指的是包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈方案;「全场景」则是将公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端在内的全场景纳入到 AI 的部署环境中。
那么,如何进一步理解当下 AI 开发、部署的痛点,华为云全栈全场景的 AI 能力,又对开发者、企业有何意义?
接下来,我们来一一解读。
1.AI 开发/部署所面临的挑战
对于任何一个行业来说,AI 开发、部署都是一个全新的挑战,而且这些挑战也贯穿在 AI 开发、部署的始终。
首先,AI 算力需求旺盛且多样化。自 2012 年以来,AI 计算能力需求早已超过摩尔定律,当模型越发复杂,当算力需求越来越大,开发者、企业所面临的计算成本也在大幅上升。
另一方面,随着物联网以及即将到来的 5G 时代,AI 计算的场景也将变得多元化,从大型数据中心到迷你终端设备,不同场景下的计算需求、功耗成本以及计算延时也有着不同的需求。
这意味着,AI 开发者和企业需要强大、灵活以及多场景的算力。
其次,AI 框架与一站式 AI 平台的需求。作为向下对接芯片、向上承载应用的 AI 框架,业界目前流行的 TensorFlow 等,多为美国公司研发并开源出来的产品,且不说会不会受到国际大环境的影响,只谈开源产品的本地化后续服务,TensorFlow 等都很难直接适应中国开发者的需求。
而面对 AI 人才短缺的现实,如何进一步降低 AI 开发门槛成为行业的迫切需求,更进一步,开发者和企业也需要一站式的 AI 开发环境,从而快速完成从数据标注到模型部署的一整套工作流程。
第三,云、边、端的训练和部署如何协同。这是一个摆在全行业面前的共同挑战, 相比于 AI 模型训练为数不多的技术选型(GPU,数据中心),AI 模型部署对于开发者、企业而言更复杂。这是因为,AI 部署所面临的是纷繁复杂的设备环境,特别是在移动设备、边缘设备交织的业务场景里,如何高效完成模型从快速训练到快速部署,成为各行各业 AI 从业者关注的命题。
2.华为云如何破解算力难题?
在 ICT 领域耕耘多年的华为,面对 AI 领域开发、部署的难点、痛点,提出了自己的一番思考。
正如上文所言,AI 计算需求在过去七年里迎来大爆发,根据 OpenAI 的统计,自 2012 年至今,AI 算力需求增长了 30 万倍。
这带来两个显著变化:其一,传统的 CPU 已经无法承担起 AI 计算的需求;其二,业界对于 GPU、FPGA 与 NPU 的需求开始上升。
这正是华为昇腾芯片出现的行业背景。通过底层创新性的「达芬奇架构」,使得华为昇腾芯片具备了在端边云上拥有统一的计算架构,由此带来了不仅是计算能力的大幅提升,而且还可以实现算法一次开发,再顺利迁移到其他场景的芯片上的能力。
以今年正式发布的的昇腾 910 芯片为例,其主要面向数据中心的云端AI训练,半精度 (FP16)算力达到256 Tera-FLOPS,整数精度 (INT8) 算力达到512 Tera-OPS,达到规格算力所需功耗仅310W,无论计算能力还是功耗,都属业界领先水平。
与此同时,基于「达芬奇架构」,华为在端、边、云都已推出了相应芯片,这些芯片构成了华为 AI 能力的最底层:芯片层/利用华为云的调度能力,满足开发者、企业不同场景中的计算需求,而公有云「用多少付多少钱」的商业模式,可以大幅降低企业的 AI 计算成本。
3.从框架到一站式开发平台的赋能
在 AI 开发流程里,华为将 MindSpore 作为统一训练和推理的开源框架。MindSpore 从设计开始,就确定了「AI 算法即代码」的设计范式,可以大幅降低 AI 开发门槛;而在执行模式中,基于 Ascend Native 的执行引擎,能够充分发挥昇腾芯片的强大算力;与此同时,MindSpore 还具备了适配端、边、云的能力,在统一架构的基础上,根据场景不同可大可小,最大限度满足企业场景需求,并提供更好的资源效率和隐私保护。
值得一提的是,MindSpore 未来也将全面开源,不同行业的开发者,完全可以根据其自身业务需求,灵活扩展和定制,将其应用到更多硬件平台之上,构建自己的 AI 训练模型。
在开源框架 MindSpore 之上,华为还拥有一站式 AI 开发平台 ModelArts,这个平台所肩负的,是如何为开发者/企业提供一整套基于云端的机器学习开发全流程服务。
2019 年 3 月份,ModelArts 在 AI 权威竞赛斯坦福大学 DAWNBench 榜单中取得图像识别训练和推理性能双料冠军,将模型训练时间大幅缩减的同时实现了超强推理性能。
来看一组具体数字,在训练性能方面,ResNet50_on_ImageNet上的测试结果显示,当采用128块V100时,华为云ModelArts上模型训练时间仅需4分08秒,与 2018年12月创下的9分22秒纪录相比又快了一倍,比此前 fast.ai 在 AWS 平台上的训练速度快4倍;在推理性能方面,华为云ModelArts识别图片的速度是排名第二厂商的1.7倍、亚马逊的 4 倍以及 Google 的 9.1倍。
ModelArts 能取得这样的成绩,展现了其在机器学习平台的技术优化能力,通过技术创新降低机器学习平台的使用成本,最终将技术红利让给企业和开发者。
值得一提的是,华为云 ModelArts 也践行了华为公司「把复杂留给自己,把简单带个客户」的理念,内置了自动(机器)学习特性,通过算法实现模型训练的参数自动化选择和模型自动调优,让零 AI 基础的业务开发者快速完成模型的训练和部署,甚至在一些场景中可以实现零代码开发 AI 模型。
比如在机器学习最耗时耗力的数据标注中,ModelArts 通过内置 AI 数据框架,以 AI 机制来治理数据,再通过迭代训练解决标注的数据量问题,这在数据量较大的场景中可百倍提升数据标注效率。
再比如针对 AI 开发全流程管理,ModelArts 内置了可视化管理模块,可以帮助开发者快速了解模型训练的进展,ModelArts 提供了从数据、算法、训练、模型、服务全流程可视化管理,通过任意一个对象查看这个流程,真正做到了工作流的可视化。
值得一提的是,在技术创新到产品全流程思考之外,ModelArts 还在生态使能上有自己的思考。AI 市场就是其中一例,这是一个基于 ModelArts 构建的开发者生态社区,提供了 AI 模型、API 交易、数据、竞赛案例等内容共享功能。
在这个市场,不管是科研机构还是 AI 应用开发商、解决方案集成商,抑或是不同行业不同类型的企业,都可以快速找到符合自身需求的技术或商业机会,有效连接 AI 开发生态链各参与方,加速 AI 产品的开发与落地,也保障了 AI 开发生态链上各个参与方的商业利益。
4. 高效可信的云端 AI 开发环境
如何将芯片带来的计算能力与框架/平台释放的场景能力更便捷地交付给开发者,华为还为 AI 开发准备了一整套基于 CloudIDE 与 CodeHub 的高效可信开发环境。
首先,CloudIDE 定义了一种全新的在线编程体验,开发者只需通过浏览器即可访问云端集成的开发环境,无须担心安装过多软件所带来的本地资源消耗;其内置了主流技术栈、支持 100 +语言的语法高亮,同时还能在线调试与在线运行;而利用云端按需获取的方式,开发者可以灵活配置开发所需的计算与存储资源,并根据需求弹性扩容。
与此同时,CloudIDE 与华为面向终端设备的 AppGallery Connect 形成了有效协同。对于移动设备开发者、企业的开发需求,可以提供包括计算、存储、网络、数据库及 AI 在内的等公有云资源,帮助开发者降低应用开发部署的难度和成本,从而让他们更专注于提升应用体验与打造优质内容。
其次,华为云在开发代码托管中做出了一系列创新,比如企业最关注的代码安全性,华为云的 CodaHub 从访问安全性到存储安全性再到 对 Git-Crypt 的支持,全方面提升安全性。
更进一步,CodeHub 的代码模版共享计划,开发者或企业,可以将自己的项目作为一个代码模版开放出来,提供给行业共同使用,这不仅体现了「我为人人、人人为我」的开源精神,也可以让更多开发者通过「站在巨人肩膀上」的方式,实现更多创新。
第三,DevCloud 上述两大服务与 AI 开发的全面协同效应。正如上文所言,CloudIDE 具备随时可取云端开发资源的能力,这也意味着,利用 CloudIDE,开发者可以快速搭建 AI 开发环境,而通过 ModelArts SDK的样例模板,可以快速构建自己的项目。
在整个过程中,开发者和企业根据自己的业务需求,定制不同的计算/存储资源,快速部署 AI 项目开发环境,然后引入 ModelArts 的 SDK,直接可以在 ModelArts 上完成训练与部署的一站式开发,其成本也仅仅是使用云服务的成本。
5.写在最后:中国 AI 开发进入黄金时代
无论是将 AI 定义为第四次技术革命的主要技术还是将其看作为一种通用目的技术,AI 之于各行各业的意义已经在过去几年初现出来——它将重构众多行业数十年甚至上百年的游戏规则,并带来一次巨大的技术与商业创新。
这是技术带来产业的新机遇。当国家层面的 AI 政策红利不断释放,当我国的 AI 算法、学术研究屡次获得国际赞誉,当各行各业开始拥抱 AI 的开发、部署与应用,如何为 AI 开发落地提供一整套解决方案,无疑成为摆在中国科技巨头们面前的重要课题。
华为云正是其中一个重要玩家。
基于「达芬奇架构」芯片赋能,为整个 AI 领域不断上涨的算力提供了解决方案,满足开发者、企业对于 AI 强大算力、多场景算力的需求;利用 MindSpore 和 ModelArts 的场景赋能,在大幅降低 AI 开发门槛、加速企业 AI 开发的同时,还将利用开源持续推进中国自研 AI 框架的发展;围绕 CloudIDE 的云端开发环境,既可以释放华为在 AI 芯片与 AI 框架的核心能力,还可以释放华为云的产业红利。
上述三个方面,构成了观察华为云全栈全场景 AI 战略的一个横切面。
华为依托自身在 ICT 领域的技术积累,过去几年迅速形成了一套从数据中心到边缘设备的 AI 软硬产品线以及解决方案,从自研芯片到自主框架,从一站式开发平台到云端开发集成环境,华为将一系列 AI 软硬件产品以华为云公有云的方式使能各行各业,加速各行各业步入 AI 开发、应用的快车道,实现行业数字化、智能化的变革。
一个可能的场景是,随着包括华为云在内的中国 AI 基础设施服务商的快速发展,未来中国最好的 AI 应用一定是由中国 AI 芯片(昇腾芯片)驱动的 AI 框架与开发平台(MindSpore+ModelArts)和云端开发环境(CloudIDE+CodeHub)所开发,并运行在中国最领先的云服务之一(华为云鲲鹏云服务)之上,这个属于中国 AI 的黄金时代正在到来。