踢开AGI大门！Sora会让世界成为“太虚幻境”吗？

2024.10.12 雷科技

假作真时真亦假，如梦如幻。
    就在前几天，OpenAI发布了文生视频工具Sora，尽管这并非行业首创，但作为AGI的“开宗立派”者的旗舰产品，Sora依然震撼了科技产业。除了引爆科技圈热议外，媒体、文娱等等相关产业均对Sora高度关注，更有消息称“开工第一天，所有VC都在开会讨论Sora”。
    Sora从技术上迎来了全面革新，比如说，它能实现长达1分钟的视频内容创作，也能根据需要制作长镜头内容，还能根据不同角色的情感给出不同的镜头语言。如果最终发布的产品的能力，真如视频Demo这般强大，Sora将对流水线制作模式的影视团队带来一些冲击。
    马斯克也在个人社交平台当中锐评道：“gg humans（人类愿赌服输）”。

    （图源：X）

    不过，Sora仍在测试阶段，距离其真正投入使用还有一段时间。鉴于AIGC行业存在“Demo过度”的情况（比如Google Gemini发布会的演示就被揭露造假了），因此Sora发布版到底表现如何还有待体验。至于Sora能否真正引发行业变革甚至像一些媒体危言耸听宣称的“颠覆世界，消灭XX”，其实也还是未知数。
    史上最强AI视频工具，到底有何突破？
    Sora的最大突破在于能够根据文本描述生成一段长达60秒的视频内容，此前，世界记录的保持者为Runway的Gen-2，最高能创作时长为16秒的视频。但Sora并不是一个纯粹的视频生成工具。

    （图源：Sora）
    在OpenAI公开的技术性报告中，Sora的真实身份被揭晓：底层是一个扩散Transformer模型，相较于传统的基于二维模型的文生视频产品而言，Sora具有对现实世界物理规律的感知，对于如何生成一段「逼真」的视频，有深刻的自主意识。
    OpenAI在Sora的官方网站中放出了多条演示视频，其中一段两只海盗船在咖啡杯中翻涌的视频，展现出Sora对液体的状态、船只的物理形态、运动轨迹的判断多维度的理解。

    （图源：Sora）
    此外，Sora还能产生多个角色、特定类型运动以及主体背景丰富细节等多种复杂场景的视频，即便用户没有描述这些特定场景的细节，Sora依然能够理解并准确生成。比如说，当你需要一个描述为「晚宴」的视频内容时，Sora并不会止步于饕客们将美食一扫而光的过程与结果，而是会将每一个动作所留下来的痕迹得以保留：咬了一口的汉堡，就会有咬过的痕迹。
    事实上，Sora的成功离不开OpenAI公司前两款产品的经验积累，那就是2021年初、2022年末分别推出的图像生成工具DALL.E与自然语言大模型工具ChatGPT，通过它们，Sora获得了对文字描述的理解与图像数据处理的能力。

    （图源：Sora）
    更重要的是，OpenAI为Sora引入了视觉块嵌入式代码，即pathces，你也可以将其理解为LLM里的tokens，这些pathces就像是一个又一个包含了时间、空间信息的积木块，Sora能够更快速地从中找到所需的素材，为创作者生成视频。此外，这些pathces也能帮助Sora完成高速的自主学习。
    Sora还能接受图片和视频输入，生成新的创意视频，又或是根据描述生成多达五个分镜头，包含人物表情特写、动作特写、场景等。这只是目前为止我们能看到的Sora具备的能力，正如前面所提到，Sora是一个扩散Transformer模型，其与生俱来的学习能力才是让人敬畏的关键所在。
    很可惜，现阶段的Sora也存在一些问题，例如空间、方位的细节。在官方演示视频里，展示了反向跑步的运动者、凭空出现的狼崽以及从杯底流出果汁的水杯等。

    （图源：Sora）

    （图源：Sora）
    尽管仍有美中不足的地方，但Sora绝对称得上是AI视频的一大革命性突破——是真的革命性，而不是夸大其词那种。
    过于聪明的Sora，确实会让人后背发凉？
    在所有演示视频中，最令人感到震撼的还是那段一对情侣漫步东京的短片。

    （图源：Sora）
    Sora通过对现实空间的精确识别，创作出带有动态视角变化的视频内容，视频中，人物、背景都在立体三维空间内移动，就像真实的影片创作一样。
    作为一个文本视频生成工具，Sora似乎有些过于「聪明」了，它的到来，也不禁让人对AI在未来的发展产生更多思考。
    全球化人工智能企业APUS董事长兼CEO李涛先生认为，Sora的横空出世，带来了三个问题：
    1、打造无限逼近真实的场景。
    正如我们前面提到，Sora拥有现实世界的「意识」，这意味着它构建的内容基本都会遵循真实存在的物理规律，而这种「虚拟」在未来只会更加「逼真」，这也让我们不禁思考：在AI时代，我们应该如何定义和理解真实与虚拟。
    这让雷科技想到了曹雪芹《红楼梦》第一回的这样一段：
    士隐接了看时，原来是块鲜明美玉，上面字迹分明，镌着“通灵宝玉”四字，后面还有几行小字。正欲细看时，那僧便说“已到幻境”，便强从手中夺了去，与道人竟过一大石牌坊，上书四个大字，乃是“太虚幻境”。两边又有一幅对联，道是：
    假作真时真亦假，无为有处有还无。
    Sora的出现，让真实世界与虚拟世界的边界一下变得模糊，在如梦如幻的“太虚幻境”，真假难辨，将给人类带来许多困惑。对此，人类必须要想法来应对。
    2、学习能力高度类人。
    Sora与之前问世的文本视频生成工具不太一样，它具备高度模拟能力与学习能力，而作为一个有自主学习能力的「模拟器」，参考ChatGPT从3.5到4.0的进化速度，是否可以大胆预测，Sora很快就会成为类人的智能，不光学习速度快，反应能力与反应速度甚至可以超越人类。
    3、算力之上芯片落后。
    每一个深度学习的人工智能模型，都离不开背后强大算力的支持，Sora亦是如此。如今，中国人工智能所拥有的能力远远落后于此，算力的局限无疑是制约我国AI发展的重要因素之一。因此，加强芯片研发、提升算力水平，是我国人工智能发展的当务之急。
    Sora仍在测试阶段，我们仍有时间在短期时间内尝试驾驭它、了解它，同时继续在芯片端巩固地位，为AI提供更强大的底层硬件支持。
    AI时代落幕，Sora叩开了AGI世界的大门
    在Sora问世之后，马斯克急得像热锅上的蚂蚁，只因Sora是当下最接近AGI概念的产品，而AGI又是马斯克心心念念的蓝海市场。
    AGI，即Artificial General Intelligence，又称人工通用智能，是指能够完全模仿人类情感、行为，实现自我学习、自我改进、自我修正的智能计算机系统。尽管Sora当前只展示了其在视频，又或是内容创作上的能力，但其对于真实世界的理解，已经展现出强悍的实力。

    （图源：Sora）
    为什么三六零周鸿祎说Sora让AGI时代到来的时间从十年缩短至一年？归根结底就是对现实世界的理解能力。AGI最大的特点在于对真实世界的规则，尤其是物理状态、自然规律、化学变化等等因素的反馈。Sora虽然只在内容创作上带来帮助，但谁能确保经过足够的训练，OpenAI不会基于此推出真正意义上的AGI产品呢？
    周鸿祎在见证Sora诞生后表示，Sora有别于其他文本视频生成工具，它能理解坦克是有巨大冲击力的，坦克能够冲毁汽车，而不会出现汽车撞毁坦克这样的事情发生。同时，他还认为，Sora只是OpenAI小试牛刀的产品，真正的好戏还在后头。

    （图源：微博）
    这并非空穴来风，早在去年10月，路透社就曾报道OpenAI已经参与投资至少三家半导体设计公司，其中Cerebras更是一家初创型企业。OpenAI CEO Altman曾公开表示，其工作与产品仍需更多算力提供帮助，目前公司所使用的还远远不够。除去已经投入运营的DALL.E和ChatGPT，以及测试中的Sora，或许还有真正属于AGI时代的产品蓄势待发。
    2016年，Google旗下的AlphaGo战胜李世石让深度学习被全世界关注，我们进入了深度学习驱动的AI时代，许多科技产品和传统行业均被深度学习技术改变，这一阶段也迎来了抖音、小红书这样的AI驱动的世界级产品的崛起。
    2023年兔年开工，全世界沉浸在 ChatGPT 带来的 AGI（通用型人工智能）的震撼之中，一年之后的今天，Sora再度震撼人类，且是更大的震撼，见过大世面的人类就像原始人发现火种一般激动不已。
    毫无疑问，一个崭新的AGI时代的序幕已经缓缓拉开，一个新的智能时代已然到来。或许Sora不一定取代影像工作者，但Sora背后的AGI技术，一定会重构科技产业的秩序，催生抖音这样的世界级产品，赋予人类全新的工具和力量，这一切，都是如此振奋人心。

来源：雷科技