人工智能开源的重要性为什么被华为、小米一再强调？

2022.11.01

    卡内基梅隆计算机科学院院长安德鲁·摩尔（Andrew Moore）曾提到过这样一组数据：现在，在提交给大型人工智能会议的论文，50％都来自中国，而在十年前，这个数据是5％。其实除学术研究，在过去一年，中国的AI初创公司在全球人工智能领域的融资占比也从2016年的11％迅速增长为现在的48％。
    当下，无论是技术的积累，还是资本的投入，国内AI产业发展都达到了一个新的量级，整个行业呈现出一种爆发式的增长态势。然而随着商用的推动以及众多AI企业对应用场景的不断深入，技术与应用之间无法避免的“嫌隙”愈发被放大。现实场景给出的反馈明确告诉我们，现在的AI技术短板十分明显。
    在刚刚过去的2018AIIA人工智能开发者大会上，微软中国首席技术官韦青就直言，当下人们对于AI的态度过于乐观，整个社会的产业只有进入智能再造过程，人工智能才算做到真正的赋能，而这还需要技术进一步的发展。
    寄希望于AI为整个世界赋能之前，我们更应该思考的是，如何为AI赋能？
    想要AI全面赋能，为什么要强调开源？
    所谓开源，它本质上是一种人才、智慧的聚合，是产业升级的强大助推器。不可否认，无论是上世纪九十年代的Linux开源社区，还是当下的TensorFlow，它们在推动各自行业发展的过程中举足轻重。可以毫不夸张的说，如果没有开源社区，苹果、谷歌、Facebook都不会发展为现在的体量；如果没有Linux，现在的互联网格局也不会有今天的盛况。
    而在“AI赋能”概念被广为人知的这一年，AI企业却无可避免得要让市场失望。一边是AI企业“大肆炫技”，一边是民众吐槽产品并非刚需，业内最戏谑的现象莫过于此。事实上，在市场中跌打滚爬后，人工智能的技术瓶颈话题也已经不止一次被提起。种种迹象表明，AI技术全面赋能现实场景时机尚未成熟，技术研发还需探索。
    以现在火热的自动驾驶为例，在开发者大会上中国工程院院士郑南宁就从技术的角度解读了这一领域现存的问题。他认为“当投入路测后，在复杂的场景和多样的交互条件下，原本考虑各种状况而设计出的系统根本无法应对。经过推理分析，我们把问题总结归纳为不确定性、约定条件和先验知识的局限性，追本溯源，这主要来自神经网络和符号化的模型搭建固有的弊端。”
    换言之，郑南宁院士直指的其实是现有的神经网络技术问题，即当下AI技术固有的弊端阻碍了自动驾驶等领域进一步的发展和应用。
    图｜中国工程院院士郑南宁
    紫光执行副总裁楚庆在大会演讲上也毫不留情面的揭开AI技术繁荣的面纱：“目前人工智能能力尽数彰显，即当下技术的价值已经完全显露，想要为产业带来新的增长力，我们恐怕只能回本溯源，求助于自然科学。”
    显然，当前的AI技术能力不足以支撑进一步的场景研发，回归技术、回归开发者已经成为共同的认知。而当这一问题在整个行业发展中凸显时，开源这一解决办法带来的集思广益必然是优于闭门造车的。
    小米首席架构师崔宝秋在演讲中就以小米的产品佐证了开源的重要性。“通过开源可以验证模型的质量，AI巨头也可以通过开源快速占领市场，处于领先地位。如小米的Cloud－ML平台就是一款基于TensorFlow等开源网站搭建的架构产品。”
    如何更好协作和推进开源，推进国内AI的未来？
    开源的好处诸多。显而易见，同行的智慧可以启发开发者，让后辈的代码写作高度一开始就可以站在前人的肩膀上。对于公司而言，开源也可以帮助企业扩大在特定领域的优势，形成差异化竞争。同时，外部工作者的参与，对提高产品的用户体验也起到积极的推动作用。
    不过，在开源这件事上，基于利益和知识产权考虑，AI公司不可避免的需要格外谨慎。崔宝秋指出，“虽然开源对整个行业有诸多裨益，但是对于公司而言，在展开开源项目时，要平衡好开源、业务和两方投入比重的问题。”
    事实上，在开源方面的投入，小米一直是不遗余力，也是国内成功推进开源工作的典范之一，如它推出的专用于移动端异构计算平台优化的神经网络计算框架MACE、适用分布式KV存储系统的算法架构Pegasus等，都给开发者一定启发，被他们广泛使用。
    图｜小米首席架构师崔宝秋
    而看见了当下AI能力的局限以及因其催生的需求后，为了助力产业发展，填补开发平台的空缺和需求，华为也是将重心放在赋能AI上。某种层面上，也是在服务开发者。
    对公司刚刚发布的全栈架构，华为基础云服务开源生态总经理蒋晓黎做了解释。“我们通过研究观察发现，不同于传统算法开发，现在AI开发者们遇见了许多新的问题，如难以找到适度的数据集和适度的模型训练，边缘计算、端的复杂性带来的逻辑推理和开发速度大幅降低，以及繁杂的数据标注等工作等。华为推出的全栈架构在做的就是让AI开发者的开发工作更简单，普惠AI。”
    值得一提，华为方面虽未明确此架构是否开源，但在全联接发布现场，徐直军强调这是一款开发者朋友“用得起，用得好，用的放心”的架构。可见，华为一开始就没有将过多业务压力放在此架构产品上，也算是无限接近开源了。
    图｜华为基础云服务开源生态总经理蒋晓黎
    虽然如此，国内开源工作也还是处于非常不成熟的阶段。
    反观开源发展史，从1983年的开源操作系统GNU到2017年由英伟达和Facebook共同推出的开源深度学习框架Caffe，国际科技巨头在开源工作上一直处于领先地位，作为后来的新人，国内的开源推进任务着实艰巨。
    对此，作为一位资深的开源爱好者和国内开源工作推进的重要参与者，崔宝秋给出了自己的方向性建议。“第一步，我们要让国内的开源资源能够走向模块化和标准化道路，同时，在人工智能时代这一独特的大背景下，推进数据的开源也成为一件必须的事情。”
    最后
    事实上，开源算法社区是互联网时代背景下孕育出的一种特殊的技术孵化器，它需要需要开发者和企业协作助力。当然，为AI全面赋能，不仅仅是发展算法架构，在硬件层面，AI加速硬件设计、测试过程也是十分必要。
    和Arm有着异曲同工之妙，新思科技一直在做的就是为芯片设计者提供更好的EDA工具。在大会上，该公司人工智能智能实验室主任廖仁亿在演讲中就指出：“在当下的高度发展时代背景下，硬件设计过程耗时长无疑成为了急需改进的“短板”。因此，新思科技现在亟需要做的就是收集硬件设计过程中的各方面数据，开发出更好用、更高效的人工智能EDA工具。”
    为AI赋能需要更高效的硬件开发工具和算法架构，而这要求行业内各个层面人士合力推进，国内稍显落后的开源工作无疑也需要提上日程。