从ChatGPT到Sora，奥特曼要做创世者？

2024.10.12 何玺

出品 | 何玺排版 | 叶媛
    ChatGPT之后，OpenAI再次让人惊叹！2月16日，奥特曼发布OpenAI首个视频生成大模型Sora。
    01
    Sora能做什么？它又为什么让业界如此震惊？
    首先，Sora能够图文成片。文本成片方面，Sora能够根据用户提供的文本描述完整、准确生成长达60S的的高品质视频。图片成片方面，Sora不仅能够从文本生成视频，还能够从现有的静态图像开始，准确地动画化图像内容，或者扩展现有视频，填补视频中的缺失帧。此外，Sora还能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。要知道，再此之前，Pika，RunwayMl，Stable Video等AI视频大模型一次性生成的视频时长也就几秒。
    其次，Sora还有强大的语音理解能力和多镜头生成能力。语言理解方面，Sora能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令，并在生成的视频内容中忠实地反映这些指令。多镜头方面，Sora可以在单个生成的视频中创建多个镜头，同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。
    第三，Sora有强大的物理世界模拟能力。Sora能够模拟现实世界的一些人、动物和环境方面行为的能力。值得一提的是，这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差，而是纯粹通过模型的尺度扩展而自然涌现的。
    第三点有一点不好理解，玺哥简单解释一下，就是Sora已经初步具有了洞察物理世界运行规律的能力。比如人物人类“咬”食物后，食物会留下咬痕，画家在画布上涂抹会留下新的笔触等。
    除了以上能力，Sora还具有视频到视频编辑，图片生成等能力。
    02
    萨姆奥特曼要做创世者？
    看到这里，或许有人会说，Sora虽然强大，但也就是一个视频生成模型而已，如果你也这样认为，那就大错特错了。下面玺哥聊聊个人对Sora的一点看法。
    目前我们看到的Sora生成的视频还只是OpenAI放出来的demo，但从放出来的这些视频可知，在洞察物理世界运行规律这件事情上，OpenAI已经找到了一条模拟真实世界的路径。而从OpenAI官方文档透露的信息来看，Sora并不只是做一个简单的视频生成工具，其根本目的是做一个物理世界模拟器，为真实世界建模。或许在不远的未来，OpenAI将构建一个和真实世界一模一样的”AI拟真世界“。这个”AI拟真世界“不仅有和真实世界一模一样的山川河流等自然环境，也有一模一样的物理运行规则。那时，人类或可以在这个拟真世界以百倍，千倍，万倍的效率完成学习、成长。
    当然，想要在这个”AI拟真世界“生活，你必须要有一个AI世界的身份，那就是人类的“数字人”分身。谈到数字人分身，我们不得不提ChatGPT，因为他太像“人”了。ChatGPT不仅能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动。ChatGPT不仅能理解人的意图，还有自己的思辨能力，能够推理，能够胜任许多人类工作。现在，随着应用商店的发布，ChatGPT更实现了对人类能力的分类。
    现在，我们把Sora和ChatGPT结合起来看看，一个是要复制一个真实的物理环境，一个是要复制一个真实的人，真实的物理环境+人，不就等于一个新的世界吗？
    或许在不久的将来，我们的人生就将分成两部分，一个是AI世界中的我们，一个是现实世界的我们。至于是AI世界中的我们更重要，还是现实世界中的我们更重要，就要看个人更适合在哪种环境中生活了。
    到那个时候，或许奥特曼真的就成了“AI拟真世界”的创世者。