OpenAI首个AI视频模型Sora的颠覆与争议

2024.10.12 商业秀

【编辑推荐】有人说，这是影响影视行业和未来技术发展的又一颠覆性事件?，也难怪大家惊呼“现实，不存在了！”不过，Sora和文生图一样，普遍存在生成内容不够精确，所以离真正颠覆影视行业还有很大一段距离。可以肯定的是，这些新的工具和产品正在逐渐改变我们的工作和生活方式，一个新的智能世界，正在走来，未来谁能快速掌握这些AI工具和技术的使用，谁才是真正的掌控者。
    太炸裂了！2月16日凌晨，OpenAI在社交平台X上宣布，正在开发一款名为Sora的新模型。
    Sora可以做什么？它的主要功能是把文本描述转化为视频，它能够理解并执行详细的文本指令，从而生成具有视觉质量和连贯性的视频。这些视频可以包含多个角色、动作和场景，还可以根据提示的主题和背景，精准生成影片内容，呈现复杂的摄影机运镜，影片长度最多为60秒。除了根据文字产生影片外，它还能够从静态图像生成动画，或扩展现有视频。
    虽然，目前它尚未对大众开放使用，不过消息一出，它已经在网络上引发讨论，很多人表示大为震撼。
    来看一组展示，一位时尚女性走在霓虹闪烁的东京街头；一位20多岁的年轻人正在一片云上读书，中国龙庆祝中国新年……其实它的独特之处在于，它不再是一种创造性工具，更像是一个“数据驱动的物理引擎”。它不仅了解用户在提示中提出的要求，然后根据你的需求生成图像，还能确定环境中对象的物理特性，并根据这些计算渲染视频。
    有人说，这是影响影视行业和未来技术发展的又一颠覆性事件?。也难怪大家惊呼，现实，不存在了！
    而这些能够实现背后依靠的是扩散模型，这意味着Sora会从模糊充满静态的视频开始生成，然后再慢慢将其平滑处理成你看到的精美版本。
    我们知道之前发布的Midjourney和Stable Diffusio也是扩散模型，但不得不说，Sora制作的视频比它们更长、更有活力、也更流畅。
    Sora感觉像是创建了一个真实的视频，而Midjourney和Stable Diffusio模型感觉像是人工智能图像的定格动画。不过Sora目前还是一个未完成的产品，它可能难以消化复杂的物理或空间细节，进而导致它生成不合逻辑的影片，比如人类在跑步机上跑错方向、比如可能会生成一个人咬饼干的视频，但之后饼干可能没有咬痕。并且可能会难以遵循特定的运镜轨迹。
    OpenAI表示该模型缺乏空间意识可能会混淆左右，并且不理解人或物体如何与场景交互。可以看出，Sora和文生图一样，普遍存在生成内容不够精确的问题，所以，从这个角度而言，它离真正颠覆影视行业还有很大一段距离。随着这两年人工智能热潮的持续推进，相关产品也备受争议。但不得不承认，这些新的工具和产品正在逐渐改变我们的工作和生活方式，一个新的智能世界，正在走来。未来谁能快速掌握这些AI工具和技术，谁才是真正的掌控者。