大模型打响开闭源之战

2023.07.22

    大模型的开、闭源之战，开始得比想象中早上一些。
    7月18日，Facebook母公司Meta表示，将发布其开源大模型Llama的商用版本，为初创企业和其他企业提供了一个强大的免费选择，以取代OpenAI和谷歌出售的昂贵的专有模型。同时宣布，Llama将由微软通过其Azure云服务分发，并将在Windows操作系统上运行，并称微软是“我们的首选合作伙伴”。

    一时间，有不少分析人士认为，Llama将改变AIGC的产业格局。Meta 副总裁、人工智能部门负责人杨立昆也赶来站台，“Llama 2 将改变大语言模型市场的格局。”事实真的如此没有悬念吗？
    开源（Open Source），即开放源代码，最早起源于20世纪50、60年代的美国。早期开发互联网技术和电信网络协议时，研究人员需要进行开放式的协作环境。而1968年Internet的先驱阿帕网（ARPANET）的建立，成为了对开放源代码可行性展示的标志。到了1985年，自由软件运动领袖理查德·斯托曼（Richard Stallman），看到以专利软件为手段的商业化逐渐取代实验室中免费可自由流通的软件后，发表了著名的GNU宣言，开启了开源运动，最终导致了免费的Linux操作系统的诞生。
    自ChatGPT爆火以来，将其开源的呼声未曾断绝。可就在ChatGPT2发布之后，OpenAI选择了闭源发展。这也未必完全出于规避竞争的考量，就算某天OpenAI真的完全open了，其他同行也不能简单复制其成功的路径。
    因为ChatGPT能够引发“iPhone时刻”的原因在于，强大的生成能力给予了人们不一样的场景体验。但这背后依赖OpenAI很长一段时间内在算力、算法和数据方面的积累。实际上，在这场全球大模型军备赛中，有关开源发展和闭源深耕的争论将继续下去不止不休。
    开源or闭源
    历史的车轮总会重复碾过，在互联网发展史上，有关开源和闭源的战争一直都在上演。
    除了上文理查德·斯托曼的GNU宣言，打响对闭源的第一枪外，随后的PC时代有关开闭源的争论也没停过。
    PC刚兴起之时，微软内部的研发团队通过闭源开发Windows操作系统，并开发配套的应用软件如Office等，并在生态建设方面组局Inter形成 Wintel 联盟，成功抢占了PC市场。而Linux在那个时期，则属于自发的“民间组织”，由全球开发者共同参与建设，通过开源与微软形成了一定的竞争。
    到了移动互联网时代，谷歌的Android和苹果的iOS开闭源之争，也是各自走出了不同的路径。基于Android的开放，诞生了一大批的定制化手机操作系统，比如国内小米的MIUI、OPPO的ColorOS等，就连车机端的比亚迪车机系统都是基于Android开发而来。当然，就商业成功的角度来看，微软和苹果的阵地一定时期内更加牢靠。
    在SaaS的发展史上，软件的开源也与上同理。中科院院士、CCF开源发展委员会主任王怀民教授关于开闭源认为，在一个确定发展方向的时代中，闭源公司的推进效果是明显的，竞争力也是极强的。“但当一个不确定性的互联网时代到来时，开源吸引了全球开发者参与其中的可能，使得后来的服务器操作系统、云操作系统、手机操作系统、物联网操作系统都是以开源的Linux为基础。”
    国外有ChatGPT与Llama之争，国内的大模型厂商也各有千秋。
    如阿里云、智谱和清华EKG、百川智能等，选择了开源。阿里云公布1+4开源战略，推出大模型方向的开源新势力魔搭GPT。阿里巴巴达摩院高级算法工程师李晨亮，曾对外表示，“开源生态肯定是有助于大模型的繁荣。”反之，华为的盘古大模型就选择了闭源，也是为了其数据隐私和商业收益的考虑。
    价优者胜？
    大模型开源之后，会吸引更多的人才参与进入，加快技术进步，但想要实现突破，还需要从底层理解模型框架和算法基本原理。众所周知，人工智能三要素是：算力、算法和数据。开源只是处于算法阶段，之后还需要对其进行大量的算力支持和数据训练，这背后的成本就相当高昂。
    以OpenAI为例：业内人士表示，大模型训练和运行将耗费巨大的算力资源和数据，仅是在 2022 年，OpenAI 总计花费就达到了 5.4 亿美元，与之形成鲜明对比的，则是其产生的收入只有 2800 万美元。
    有行业消息透露，一家上市公司的人工智能部门打算用OpenAI的GPT-3.5开发功能，但迫于成本和定制开发以及不支持同一时间响应大量用户请求的原因，选择了参数量更小的Llama和一个国内公司的开源大模型，在后期的训练和部署的成本也会更低。
    “开源模式的任何渐进式改进都在蚕食闭源模式的市场份额，因为你可以以更低的成本运行它们，而且依赖性更小。” 软件开发平台Replit的首席执行官Amjad Masad表示。
    开源也能让其他新加入者更快适应AI产业。比如在谷歌泄漏的文件中就提到：几乎任何人都能按照自己的想法实现模型微调，到时候一天之内的训练周期将成为常态。以这样的速度，微调的累积效应将很快帮助小模型克服体量上的劣势。
    更多的人进来使用，就会产生更多的数据。这些互联网原生内容的常态化训练，远比一家公司仅凭一己之力去做数据的采集和标注要简单得多。
    共享出Llama的Meta 表示，收集的数据代表着根据经验采样的人类偏好，由人类标注员选择自己更喜欢两条模型输出中的哪一条。人类给出的反馈意见随后将用于训练奖励模型，该模型会不断学习人类标注员的偏好模式，再据此自动执行偏好决策。
    开源的好处显而易见，闭源的道理也逻辑扎实。
    元创资本的研究显示，相较于开源来说，闭源模型相对成熟、数据质量更有保障，同时也省去了部署的麻烦，费用相对较低，仅需支付token的费用。
    当然最重要的是，对于厂商来说，闭源还有着商业的考量。根据权威杂志《Fast Company》预测，OpenAI 2023年的收入将达到2亿美元，包括提供API数据接口服务、聊天机器人订阅服务费等。
    对垒刚开始
    上个月，猎豹移动CEO傅盛与投资人朱啸虎的口水战引发热议。核心冲突就在于行业对于大模型的价值思考，在于大模型能不能解决问题。
    如今，以OpenAI为代表的大公司、强算力、强算法，共同砌成了一道普通创业者和开发人员难以突破的围墙，以至于当市场上出现其他类似开源的应用时，人们都认为是大模型行业的垄断要被打破了。
    实际上，自OpenAI推出ChatGPT引发全球跟风以来，英伟达的股价便迎来了暴涨，主要源于厂商对算力芯片的强烈需求。换句话说，即使开源了人人都有大模型，那算力、算法和数据训练的工作还是需要有人来做。并且开源也仅仅相当于开放了设计图纸，你可以在图纸上进行调优，但并不代表就能完整造出一幢建筑。
    就比如一些大模型产品刚上线时，经常出现语义理解不准确，产出结果令人啼笑皆非的现象。背后原因就是对高质量数据的筛选和训练得过少，导致数据的准确性直接影响人工智能的产出结果。
    但训练数据并不是一时的，涉及到数据的采集、清洗、标注的另一条产业链。在过去的很长一段时间内，这个环节都是由专门的数据处理公司来做，也就是说，需要进行长期的人力投入。
    有业内的数据优化工程师表达了类似看法，大模型本身的泛化能力仍受限于数据。如果说ChatGPT要替代某个职业或岗位的话，最简单的一个判定标准即是，是否具备数量足够多、质量非常好的数据。同理，想要通过开源去打破垄断的模型，还需要对数据进行足够的优化，对基础设施的投入足够得多。
    大模型的开闭源之争，终究不会是靠某一个或几个产品的出现而终结，更多的还要顶尖人才参与、技术迭代和资金支持。想要打破垄断，还需要考虑时间的因素以及对高质量数据的筛选。
    开或闭，从来不是最根本的问题，产品体验与市场需求的匹配，才是起决定作用的胜负手。