谷歌 VS OpenAI，大模型Gemini有多拼？

2024.10.08 Ai芯天下

前言：
    为了与OpenAI和微软在人工智能领域展开竞争，谷歌采取了果断的措施。
    他们从PaLM 2切换到了Gemini上，并决定将谷歌大脑和DeepMind合并，以进一步加强对大模型的研发能力。
    合并后的Google DeepMind将集两个实验室的力量，全力攻关Gemini。这充分展示了谷歌在大模型军备竞赛中孤注一掷的心态。
    作者 | 方文三
    图片来源 |  网络
    谷歌大模型Gemini正式发布
    近日，谷歌公司宣布推出新型大型语言模型Gemini。
    Gemini是一个多模态大模型，意味着它可以泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。
    谷歌表示，Gemini还是他们迄今为止最灵活的模型，能够高效地运行在数据中心和移动设备等多类型平台上。
    Gemini提供的SOTA能力将显著增强开发人员和企业客户构建和扩展AI的方式。
    Gemini将作为首个直接在手机上运行的大型模型，应用于谷歌Pixel 8 Pro智能手机和聊天机器人Bard。
    谷歌计划通过谷歌云向客户提供Gemini授权，并将在未来几个月内将其与其他谷歌服务产品进行集成。

    为了比较Gemini与OpenAI的GPT-4的性能，谷歌运行了32个完善的多模态基准测试，结果显示Gemini在32项基准测试中的30项中均领先于GPT-4。
    在MMLU（大规模多任务语言理解）测试中，Gemini首次在MMLU得分率达到90.0%，成为第一个在MMLU测试中超越人类专家的模型。
    Gemini包括了三种不同规模的模型：
    ①Gemini Ultra为最大、功能最强大的类别，定位为GPT-4的竞争对手；
    ②Gemini Pro为中端型号，性能优于GPT-3.5，可扩展多种任务；
    ③Gemini Nano则适用于特定任务和移动设备。
    利用移动手机的算力来运行生成式AI，而不是通过由大型科技公司运营的云端服务器，这将大大降低运营这类系统的成本。
    对于那些希望将私人数据限制在设备上的人来说，这也提供了一层保障。
    然后，在面临有关宣传方面可能存在夸大的质疑下，谷歌在一篇官方博客文章中，谷歌的回应基本上承认了。
    在实现演示视频中所展示的效果时，必须依赖于使用静态图片以及多段提示词的组合。
    以视频为例，其中展示了向Gemini系统轮流展示拳头、剪刀手和张开的手掌，而Gemini系统能够立刻理解这是在玩猜拳游戏。
    然而，谷歌在文章中明确指出，只有当同时向Gemini系统展示这三个手势，并给予提示这是游戏时，系统才会得出猜拳游戏的结论。
    从投资者角度来看，至少这是一个积极的开端。上周四，谷歌的股价出现了暴涨，市值增加了800亿美元。

    谷歌 VS OpenAI：从失利的首败走出来
    在今年2月的巴黎活动中，谷歌因聊天机器人Bard的一次失误，导致市值蒸发了1000亿美元，引发了外界对Bard准确性的担忧。
    同时，随着竞争对手OpenAI推出的ChatGPT以及在必应搜索中整合的GPT技术，谷歌在应用程序下载量上被超越，人们开始质疑谷歌是否在人工智能领域落后于竞争对手。
    其实谷歌才是提出2017年Transformer模型、为当今人工智能领域制定规则的先行者。
    2021年，谷歌推出了1.6万亿参数的Switch Transformer，强调稀疏多模态结构的潜力。
    此外，谷歌还提出了Flan-T5模型，通过更多监督数据降低了模型规模，比GPT-3模型参数更少但性能更佳。
    测试结果显示，谷歌AI在数学问题上表现更佳，但ChatGPT在常识问题上更准确。
    谷歌在AI领域取得了不少研究进展，但尚未将这些成果部署和变现，类似于微软在过去的某些时期。
    这可能是因为谷歌低估了微软和OpenAI的竞争实力，或者过于自信于自己在搜索引擎领域的主导地位。
    在Sam Altman领导下的OpenAI专注于产品为导向的工作，致力于扩展和优化模型，主要关注细节精调方法。
    而谷歌则在技术发展的方向上始终保持着积极和前瞻的态度，不过在整体战略规划上却屡次调整。
    在谷歌[选择困难症]期间，OpenAI已经完成了对ChatGPT的训练。

    GPT-4 VS Gemini：多模态的性能优势凸显
    作为谷歌应对GPT-4的[重要武器]，Gemini在32个多模态基准测试中取得了30个SOTA（即当前最优效果）的记录，凸显了其在多模态任务中的卓越性能。
    它是第一个在MMLU（大规模多任务语言理解）测评上超越人类专家的模型，其成绩达到了90.0%，相比之下，人类专家的成绩为89.8%，GPT-4的成绩为86.4%。
    在多选问题、数学问题、Python代码任务、阅读等方面，Gemini的性能都超过了此前最先进的水平。
    与GPT-4相比，谷歌提供的数据显示Gemini Ultra全面超越GPT-4，而Gemini Pro在大多数指标上超越了GPT-3.5。
    总体来说，Gemini在运算效能和任务性能方面都展现出了卓越的表现，成功应对了GPT-4的挑战。
    Gemini模型最初强调了其生成文本和图像的能力，以与GPT-4区分开来。
    具体而言，Gemini可以理解正式和非正式语言之间的差异，捕捉文本的语气和情感，并识别其他文本或来源的引用和暗示。
    现在，两者之间的关键差异可能在于谷歌丰富的专有训练数据集。
    Gemini能够处理来自各种服务（包括Google搜索、YouTube、Google Books和Google Scholar等）的数据。
    这些服务包含了来自不同领域和语言的大量丰富信息，有助于Gemini从各种来源和语境中学习。
    Gemini的培训数据量是GPT-4的两倍，这可能使其在从数据集中产生更复杂的见解和推断方面具有优势。
    当然GPT-4也有其独特的优势，GPT-4作为OpenAI开发的大语言模型，在语言理解和生成方面具有很强的能力。
    GPT-4采用Transformer架构和无监督学习技术，能捕捉长距离依赖关系和上下文信息，展现出卓越的语言理解和生成能力。
    此外，GPT-4还具有强大的推理能力，适应各种复杂场景并提供更智能高效的服务。

    结尾：
    与OpenAI的方法不同，谷歌从一开始就构建了一个多感官模型。
    多模态是生成式AI下一步的重点方向，有待继续探索的应用场景非常广泛。
    下一阶段的重点攻克方向是多模态技术。
    短期来看，Gemini的发布将进一步激发市场对多模态模型的期待，对产业而言，多模态将带动算力需求的提升。
    中长期来看，预计多模态模型的升级将丰富相关产品的使用场景，叠加硬件升级、算法优化带来的成本优化，2C产品的进展值得期待。
    部分资料参考：机器之心：《谷歌大杀器终于来了，最大规模Gemini震撼发布》，甲子光年：《优等生归来，谷歌最强大模型Gemini能否打败GPT4？》，财经E法：《Gemini发布仅一天就遭质疑，谷歌追赶OpenAI太过心急？》