从ChatGPT到Sora,奥特曼要做创世者?
何玺出品 | 何玺 排版 | 叶媛
ChatGPT之后,OpenAI再次让人惊叹!2月16日,奥特曼发布OpenAI首个视频生成大模型Sora。
01
Sora能做什么?它又为什么让业界如此震惊?
首先,Sora能够图文成片。文本成片方面,Sora能够根据用户提供的文本描述完整、准确生成长达60S的的高品质视频。图片成片方面,Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。此外,Sora还能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。要知道,再此之前,Pika,RunwayMl,Stable Video等AI视频大模型一次性生成的视频时长也就几秒。
其次,Sora还有强大的语音理解能力和多镜头生成能力。语言理解方面,Sora能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。多镜头方面,Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。
第三,Sora有强大的物理世界模拟能力。Sora能够模拟现实世界的一些人、动物和环境方面行为的能力。值得一提的是,这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差,而是纯粹通过模型的尺度扩展而自然涌现的。
第三点有一点不好理解,玺哥简单解释一下,就是Sora已经初步具有了洞察物理世界运行规律的能力。比如人物人类“咬”食物后,食物会留下咬痕,画家在画布上涂抹会留下新的笔触等。
除了以上能力,Sora还具有视频到视频编辑,图片生成等能力。
02
萨姆奥特曼要做创世者?
看到这里,或许有人会说,Sora虽然强大,但也就是一个视频生成模型而已,如果你也这样认为,那就大错特错了。下面玺哥聊聊个人对Sora的一点看法。
目前我们看到的Sora生成的视频还只是OpenAI放出来的demo,但从放出来的这些视频可知,在洞察物理世界运行规律这件事情上,OpenAI已经找到了一条模拟真实世界的路径。而从OpenAI官方文档透露的信息来看,Sora并不只是做一个简单的视频生成工具,其根本目的是做一个物理世界模拟器,为真实世界建模。或许在不远的未来,OpenAI将构建一个和真实世界一模一样的”AI拟真世界“。这个”AI拟真世界“不仅有和真实世界一模一样的山川河流等自然环境,也有一模一样的物理运行规则。那时,人类或可以在这个拟真世界以百倍,千倍,万倍的效率完成学习、成长。
当然,想要在这个”AI拟真世界“生活,你必须要有一个AI世界的身份,那就是人类的“数字人”分身。谈到数字人分身,我们不得不提ChatGPT,因为他太像“人”了。ChatGPT不仅能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动。ChatGPT不仅能理解人的意图,还有自己的思辨能力,能够推理,能够胜任许多人类工作。现在,随着应用商店的发布,ChatGPT更实现了对人类能力的分类。
现在,我们把Sora和ChatGPT结合起来看看,一个是要复制一个真实的物理环境,一个是要复制一个真实的人,真实的物理环境+人,不就等于一个新的世界吗?
或许在不久的将来,我们的人生就将分成两部分,一个是AI世界中的我们,一个是现实世界的我们。至于是AI世界中的我们更重要,还是现实世界中的我们更重要,就要看个人更适合在哪种环境中生活了。
到那个时候,或许奥特曼真的就成了“AI拟真世界”的创世者。