GPT-4再次令人惊叹，国内大厂路在何方？

2024.08.31 数智前线

GPT大模型带来的人工智能热没有降温的意思，各家都在展示在人工智能技术上的积累。而相比于海外在基础研究层面的创新，国内人工智能的发展总体上更偏重应用和落地。

文｜游勇石兆

编｜周路平

互联网再次风起云涌

机会有多大，焦虑就有多大。ChatGPT有多火，国内大厂和人工智能创业者就有多焦虑。

上周，OpenAI的多模态大模型GPT-4发布，ChatGPT迁移到GPT-4之后，一本正经胡说八道的情况明显减少，学习和进步速度之快，令人惊叹。与此同时，微软将GPT4的能力全面接入Office全家桶，打工人也能用大模型的能力，比如Word写论文、素材直接生成PPT、表格也不用再记公式，这些之前令人头疼的场景，现在都能用人工智能解决。

微软描绘的这一幕让国内网民兴奋不已的同时，大家不免都在疑惑，国内企业有没有类似可以比肩的人工智能技术？

很多国内互联网大厂都在面临类似的灵魂拷问。数智前线获悉，国内几家大型互联网公司和人工智能企业接到了客户密集的问询，了解ChatGPT和大模型相关的内容。尤其是行业龙头和大企业，都有一种焦虑：国内的大模型进展如何，技术是否跟得上，与业务有哪些契合点等等。

“过去，大家普遍认为，国内与海外在人工智能方面的进展，相差不大，但ChatGPT出来之后，大家有点措手不及。”一位互联网大厂人士告诉数智前线，大模型参数超过千亿之后，实现了质变，让人工智能初步具备了逻辑和推理能力。

ChatGPT带来的这种紧迫感无处不在。王慧文、李开复等人都亲自下场，组团队，搞人工智能项目。甚至连圈外的俞敏洪都说，企业家如果没玩过ChatGPT，没资格谈高科技发展。

事实上，尽管效果上与ChatGPT还有很大差距——即便是谷歌和Facebook等海外巨头，在大模型上的表现也不如OpenAI——但国内大厂在人工智能大模型上的布局早已经开始。包括阿里的M6大模型、百度的文心大模型、华为的盘古大模型、腾讯的混元大模型以及智源的悟道大模型，其参数量都在千亿规模以上，而且都是多模态。

国内厂商在人工智能领域的努力有目共睹。百度在过去几个月，加班加点，追赶ChatGPT的进度。3月中旬，百度推出的类ChatGPT产品“文心一言”已经对外开放测试，尽管在效果上不如ChatGPT，但也引起了国内用户和企业的积极尝试，数万家企业申请调用API服务，服务器一度被挤爆。

AI四小龙之一的旷视科技创始人印奇则透露，旷视接下来会在大模型的技术能力上非常坚定的投入，旷视甚至专门有个小组，只做核心的模型设计。

腾讯也在公开回应中明确表示，腾讯在相关方向上已有布局，专项研究也在有序推进。3月22日的腾讯财报会上，总裁刘炽平也回应了投资者关切，称腾讯将积极投入资源来构建基础模型，并在未来将其应用到腾讯的每一个业务线中。

腾讯做事一向比较低调，但其实腾讯在人工智能上的布局并不少，时间也不短。据数智前线获悉，目前腾讯旗下主要有三大人工智能实验室：优图实验室主打计算机视觉和产业AI应用，WeChat AI专注开发语音AI，AI Lab则专注于基础研究和应用探索的结合。

在腾讯云智能之前披露的“四级加速架构”里，不仅有最底层的算力（自研AI芯片加速算力效能），也有开发层的混元大模型，并通过腾讯云TI平台提供多元行业大模型精调解决方案，上面还有即插即用的标准化应用行业和行业解决方案，已经形成了一套从基础算力到算法模型到上层应用完整的链条。

具体到外界非常关注的模型层，腾讯在2022年对外公布过AI大模型“混元”，取”混沌初始“之意，包含了CV（机器视觉）大模型，NLP（自然语言处理）大模型以及多模态大模型，覆盖了业内主流的研究方向，先后在中文语言理解权威评测集合CLUE 与 VCR、MSR-VTT，MSVD等多个权威多模态数据集榜单中登顶，实现跨模态领域的大满贯。

混元大模型的优势在于，一是腾讯在人工智能领域的技术积累和储备，让其在多个细分赛道获得了突破。比如在NLP领域，依托于腾讯的太极机器学习平台，腾讯在去年推出了万亿中文NLP预训练模型HunYuan-NLP-1T，这个模型在最新的自然语言理解任务榜单CLUE上斩获三个榜首。

二是腾讯有海量应用场景。除常规公开数据集之外，“混元”大模型还学习了商业领域特有的文本数据集。相较于业界其他AI大模型，“混元”能够更好地理解各种长度文本信息，应对搜索、广告、新闻、问答等多样化的场景任务，在阅读理解、知识图谱相关的下游任务中也更加具有优势。

如今，在ChatGPT的声浪中，国内大厂们正在加速行动。据数智前线获悉，算力和数据作为大模型的关键要素之一，国内不少企业在大量购买英伟达GPU，同时也有些巨头正在寻找高质量的中文数据，为训练效果更佳的大模型做准备。

“最重要的事情就是现在能把GPT-3.5复现出来。”印奇说，“GPT-3.5是更重要的点，至少让大家在共同的基准上，这样后续无论是应用的创新、对技术的创新各方面至少有感觉。”

正如任正非在不久前的座谈会上所言，未来AI大模型赛道会风起云涌，不只是微软一家。

中美AI的差异在哪里

至少在GPT大模型出现之前，国内人工智能产业的发展看起来并没有与美国之间有太大差距，从机器学习到深度学习一步步都能跟得上。

国内大厂在2012年前后广泛成立了人工智能相关的实验室，后来，主打机器视觉的AI四小龙也相继出现。海外出现的新技术，国内几乎同时出现，在全球技术榜单上也不乏中国企业的身影。

比如2016年，谷歌的AlphaGo在人工智能圈大放异彩，战胜了围棋冠军，其在科技圈掀起的人工智能热潮不亚于今天的ChatGPT。而像腾讯AI Lab也在同年初就开始研发围棋人工智能程序“绝艺”，并且在后续一年中对顶尖职业棋手取得59连胜，甚至后来以让二子的情况下，战胜了世界冠军柯洁。

不难发现，国内企业在人工智能等相关领域的技术布局并没有落下。正如创新工场的李开复不久前表示：“美国仍是全球突破性的创新者。”但中国的互联网巨头，如阿里巴巴集团和腾讯，“都在建立与OpenAI、微软和谷歌相媲美的大型模型。”

但问题在于，一些重大的底层技术上的创新，往往先来自美国。在业界看来，海外大厂有充足的资金以及创新的氛围，更愿意在基础研发上投入，而不那么看重短期的商业效益。

OpenAI和DeepMind是全球人工智能领域最顶尖的两个团队。而被谷歌收购以来，DeepMind累计亏损超过了20亿英镑，且在2020年之前一直亏损。但这些都是由财大气粗的谷歌买单。OpenAI同样如此，这家含着金钥匙出生的机构，在2022年的净亏损额达到5.45亿美元，而营收还不足3000万美元。不难发现，优秀成绩的背后是不计亏损的巨额投入。

旷视科技创始人印奇坦言，中国AI公司不可能拥有OpenAI和DeepMind那样奢侈的条件，因此，国内一方面要用最艰苦朴素、奋斗的状态来攻坚核心AI技术，另外中国 AI 公司想活得长，必须要把大模型商业化。

“相对于美国不计代价的纯技术创新，中国AI公司还是要面临相对短周期、商业化的压力。我们要有极强的危机感。”印奇说。

这也造成了中国和美国在人工智能发展路径上的侧重差异。国内人工智能的发展更为重视应用落地。

马化腾曾多次表示：“腾讯AI布局注重场景应用，而不是为了研究而研究。”腾讯云智能负责人吴运声此前也表示，优图实验室在成立之初就强调，不只做基础研究，而是要坚持研究和产业落地两条腿并行的策略。

而产业落地的需求最早往往源于内部。比如十年前，优图就将视觉AI技术用于QQ空间，通过图像显著性内容的检测，就能拿自动找出图片中最能代表图像的区域。后来，优图通过活体检测技术，服务微众银行解决网上交易视频验证身份的难题。如今，这套视觉AI的能力被用在了工业质检上，腾讯云将这个场景里的实践，通过拆解算法里的每一个流程，将其沉淀到腾讯云TI平台上，最终形成了一个对外输出的面向工业质检场景的产品化平台。

腾讯在人工智能领域的每个动作背后，都有相应的落地路径。比如微信AI实验室主打的语音，也是与社交业务紧密相关，微信有大量语音转文字和语音输入的需求。腾讯的多模态大模型则是先在腾讯内部的广告业务开始应用。腾讯云的数智人是整合了腾讯在语音交互、自然语言理解、图像识别等领域几乎所有的AI能力，再根据对行业需求的理解，以不同形象服务于金融、传媒、文旅、出行等行业。

“AI将成为腾讯未来业务增长的放大器。”刘炽平说，生成式AI和基础模型技术可以补充优化腾讯的社交、通讯和游戏等业务，“但不会对这些业务造成威胁”。例如，利用生成式AI，可以帮助小程序开发者更高效地开发小程序，而像聊天机器人服务，也非常容易整合到微信和QQ中，让它受益于腾讯广泛的分发和用户触达。

国内的AI企业大多在遵循相似的逻辑。旷视科技的企业业务负责人赵康表示，“如果没有百业的捶打，AI永远是空中楼阁”。旷视的算法研发从早期开始也结合了落地，从算法交付到AIoT交付，逐步走入产业核心场景。甚至京东云也表示，旗下言犀人工智能应用平台将整合过往产业实践和技术积累，推出产业版ChatGPT。

而除了科研环境的因素，中美人工智能的差异也是由各自的产业环境所导致。

国内无论是政企，还是大大小小的行业客户，正在如火如荼地进行数字化升级改造，像工业、矿山、金融、营销等领域，给了人工智能技术大量的落地机会，质检、核身等场景应用在国内已经非常成熟。

相比之下，美国的企业信息化进行得较早，新技术在行业场景落地时面临着更高的成本。而国内基于全球产业链，世界工厂的基础，能找到更多积极、宽松的应用环境，也使得新技术得到更多反馈，迭代也更快。

所以说，中美在人工智能领域展现出的差距和差异，并不是一个非此即彼的关系，更多是路径和阶段的不同。只不过对于国内企业而言，在需求和应用出发之外，如何一步步缩小底层技术上的时间差异是不得不面对的挑战。

“我们的策略是追求以正确的方式发展，而非速度。我们希望确保基础模型是正确且稳固的。”刘炽平认为，聊天机器人只是未来多款应用的其中之一，“这是一个随着时间推移逐渐建立起来的业务机会，而非我们当下需要立刻解决的业务威胁。”所以，腾讯能够集中资源，以可持续性的方式建立相关能力和模型。

大模型也不是万能的

当大模型被捧上神坛时，人们下意识认为其无所不能。事实上，大模型正在与不少行业有了结合的可能，但真的在行业落地应用时，大模型也面临着自身的问题。

比如大模型是否会取代行业小模型，后者是当下很多企业在采用的方式。

业内资深人士称，这要以“解决问题优先”的态度来考量。很多应用场景，原来垂类模型用得很好，就没必要去赶热度。“毕竟大模型对客户来讲，是有额外成本的，这是我们的大原则。”百度云资深人士也告诉数智前线，像门口的闸机，准确率已高达99%，就没有必要再去用一个大模型，“这是个适度问题”。

但在一些方面，大模型将替代垂类模型。比如，智能客服系统，原来要靠人工进行大量数据标注。业界都知道，这是最消耗成本的部分，很多企业要耗费数千万甚至几个亿。现在，大模型将开发范式进行颠覆，仅需要少量数据。

“我们后面应该更多探讨，在成本适当增加后收益如何，在考虑ROI、性价比的情况下，把大模型的技术和效果发挥出来。”上述人士称，业界的核心诉求是如何取得大模型的最优解。

其次，人工智能已被企业寄予了为业务降本增效的厚望，但它的应用落地却门槛高、投入大、周期长，大模型就更有挑战性了，像GPT3一个训练周期就要34天，还用了1000多张英伟达最先进的A100 GPU卡，这些严重提高了模型产出的门槛。

智源研究院总工林咏华称，如果把大模型类比一座冰山，它的落地更要关注冰山之下那些层层的技术栈。“没有这些从底到上的技术栈，是露不出冰山一角的。”

这些在应用落地时遇到的难题，也在场景不断打磨中得以改进。比如，针对人工智能落地流程长、其中任何一个环节出问题都会影响落地，百度采用了人工智能开发运营一体化标准，类似软件开发运营DevOps，将AI开发落地的流程和实践标准化，以保障质量混合效率。腾讯云也用了类似的方法，依托大模型，结合实践经验封装成一个全栈式人工智能开发服务平台——TI平台，它贯通了从数据获取、模型训练、模型评估、模型部署到 AI 应用开发等的全链路，简化AI工程化。

这样的路径异曲同工。以腾讯TI平台中下的TI-OCR为例，在企业实际应用的场景中，单据识别是不少银行日常处理最多的业务，比如各类申请表单、交易票据等。TI-OCR是这个场景下的专业训练平台。它支持了5000多种版式，泛化准确率能达到90%。而且，对于新版式，拿5张样本就能快速训练，准确率达到95%以上。这避免了每次算法工程师要用大量数据进行训练的问题。

伴随人工智能成为企业必不可少的技术，业界有了模型即服务（MaaS），算法也是基础设施的趋势，这样的人工智能开发一体化平台将降低AI落地的门槛，并保障质量。

而下一个发展阶段，大模型训练成本也会降低。最近斯坦福已提出一次算法训练600美元，而且效果达到GPT3.5，如果实际中真达到这样的成本，将为大模型的落地进一步扫清障碍。

再次，针对中国企业极为关注的私有化部署，百度云人士认为这不是问题。腾讯云则告诉数字前线，腾讯云基于分布式云遨驰，公有云和私有云是同样一套解决方案，想采用私有化部署没有问题，私有化部署方案可以把能力1：1复制到专有云。“很多国内客服用到大模型，期望私有化的同时，还能低成本，需要压缩模型，效果不能影响太多。”

而业界对大模型的落地考虑得越来越细化。比如，国内市场在端侧的场景非常多。人工智能落地的时候，哪些放在端侧计算，哪些在云侧计算，端侧计算部分怎么保证模型小型化，满足端侧的低功耗要求，面向边缘场景如何提升研发落地和运营效率。再如，无论多么大的模型，总会有概率出现一些问题，如何进行大模型的状态监控，如何更快地去调优这个模型，也是业界在做的事情了。

上述腾讯资深人士告诉数智前线，AI落地产业已走入深水区，AI应用已被企业融入到他们业务流程中。业界正在加速提供AI标准化应用，也包括依托底层大模型让生产环节、业务环节更好地用上AI技术，期望实现大模型等技术应用的最优解。

不难发现，尽管国内在GPT等大模型技术上还有差距，但国内对人工智能的研发热情以及背后广泛的场景需求，使得这一技术在国内的前景依然被看好。甚至从场景需求出发来，最终反哺底层技术的投入，也不失为一种更加符合国情的策略。