GPT将死！Meta发布“类人”模型，能够理解世界

2024.09.28

    全世界现在正陷入一场AI的狂欢。每天都有大模型诞生，给人一种AI即将统治世界的错觉。
    AI确实正在经历有史以来最快的发展时期，但是有人却觉得这一切都是表象。
    在前不久结束的智源“AI春晚”大会上，深度学习巨头之一、Meta首席科学家Yann LeCun（杨立昆）语出惊人：现有的GPT模型活不过5年！

    他言辞犀利地对目前类GPT模型发出批评，根据概率生成自回归的大模型，根本无法破除幻觉难题。在输入文本增大的时候，错误的几率也会成指数增加。
    LeCun不认为现阶段的大模型可以最终通向AGI（通用人工智能），所以他提出了自己的构想——“世界模型”。
    现在，他的构想有了初步的实现。Meta刚刚宣布推出一种“类人”模型，声称可以理解世界。
    GPT不好使，“世界模型”才是未来
    Yann LeCun对于 AI 发展所持的态度是深度学习三巨头里最为乐观的。此前在马斯克提出“人工智能给人类文明带来了潜在风险”时，LeCun 曾公开反驳，认为人工智能远未发展到给人类构成威胁的程度。
    AI 的能力距离人类与动物的能力，还有差距——差距主要体现在逻辑推理和规划，大模型目前只能“本能反应”。
    基于这个立场，LeCun一直在探索如何让模型“读懂世界，理解世界”。为此，他创建了可以实现类人推理的世界模型。

    LeCun提到，人类和动物能够通过观察，简单的交互，以及无监督的方式学习世界知识，因此可以假设，这里面蕴含的潜在能力构成了常识的基础。
    世界模型需要融合不同的学科的观点，包括但不限于认知科学、系统神经科学、最优控制、强化学习以及＂传统＂人工智能。
    作为Meta的首席科学家，LeCun带领一个团队专注研究他的世界模型。直到今天，Meta宣布将向研究人员提供一种新型“类人”人工智能模型组件——I－JEPA（图像联合嵌入预测架构）。

    官方介绍，I－JEPA可以利用对世界的背景知识来填补图像中缺失的部分，而不是像其他生成式人工智能模型那样，只根据附近的像素进行推断。
    有关注过AI图像生成的人会发现，刚开始让AI作图，画面一旦出现人物，就会有多一根手指，手部扭曲等问题。这是由于现阶段的AI模型会过于关注不相干的细节，而不是捕捉更高级的可预测的概念。
    I－JEPA可以解决这一点，I－JEPA试图通过捕捉这个世界的常识的背景知识，并将其编码为以后可以访问的数字表示，从而模仿这种学习方式，让其拥有LeCun一直梦想的“理解世界”的能力。
    AGI将是最终归宿
    Yann LeCun一直将推动AI走向AGI作为毕生的目标。基于他构想建立的I－JEPA展示了架构在学习现成图像表征方面的潜力，而且还不需通过人工制作的知识作为额外的辅助。

    I－JEPA可以自我监督，不需要人类。Meta AI的团队表示，I－JEPA可以直接从图像或声音等未标记的数据中学习，摆脱人工组装的标记数据。
    在较高的层次上，JEPA旨在通过相同输入的其他部分的表示来预测输入部分（如图像或文本）的表示。因为它不涉及将图像的多个视图／增强表示折叠到单个点，所以希望JEPA能够避免与另一种广泛使用的称为基于不变性的预训练的方法相关的偏差和问题。
    Meta表示，I－JEPA在多个计算机视觉基准测试中表现出非常强大的性能，它学到的表示也可以用于其他应用，而无需进行大量的微调。I－JEPA学习的表示也可以用于许多不同的应用程序，而不需要进行大量的微调。
    开源，将是I－JEPA未来得到更大发展的必由之路。Meta的研究团队表示，期待着将JEPA方法扩展到其他领域，如图像－文本配对数据和视频数据。
    Meta CEO扎克伯格表示，与其他研究者分享 Meta 公司开发的模型可以帮助该公司促进创新、发现安全漏洞和降低成本。
    他今年 4 月对投资者说：“对我们来说，如果行业对我们正在使用的基本工具进行标准化，那么我们就可以从他人的改进中受益。”

    Yann LeCun此前也指出，“获胜的平台将是开放平台”，并称谷歌和OpenAI越来越封闭是一个错误的决定。
    对于质疑，LeCun称，“你无法阻止人们制造有害信息，但你可以切断这类信息的传播。”
    目前，训练代码和模型已经开源。相关论文将在下周举办的人工智能顶级盛会CVPR 2023上宣读讨论。