OpenAI首个AI视频模型Sora的颠覆与争议

商业秀

【编辑推荐】有人说,这是影响影视行业和未来技术发展的又一颠覆性事件?,也难怪大家惊呼“现实,不存在了!”不过,Sora和文生图一样,普遍存在生成内容不够精确,所以离真正颠覆影视行业还有很大一段距离。可以肯定的是,这些新的工具和产品正在逐渐改变我们的工作和生活方式,一个新的智能世界,正在走来,未来谁能快速掌握这些AI工具和技术的使用,谁才是真正的掌控者。
    太炸裂了!2月16日凌晨,OpenAI在社交平台X上宣布,正在开发一款名为Sora的新模型。
    Sora可以做什么?它的主要功能是把文本描述转化为视频,它能够理解并执行详细的文本指令,从而生成具有视觉质量和连贯性的视频。这些视频可以包含多个角色、动作和场景,还可以根据提示的主题和背景,精准生成影片内容,呈现复杂的摄影机运镜,影片长度最多为60秒。除了根据文字产生影片外,它还能够从静态图像生成动画,或扩展现有视频。
    虽然,目前它尚未对大众开放使用,不过消息一出,它已经在网络上引发讨论,很多人表示大为震撼。
    来看一组展示,一位时尚女性走在霓虹闪烁的东京街头;一位20多岁的年轻人正在一片云上读书,中国龙庆祝中国新年……其实它的独特之处在于,它不再是一种创造性工具,更像是一个“数据驱动的物理引擎”。它不仅了解用户在提示中提出的要求,然后根据你的需求生成图像,还能确定环境中对象的物理特性,并根据这些计算渲染视频。
    有人说,这是影响影视行业和未来技术发展的又一颠覆性事件?。也难怪大家惊呼,现实,不存在了!
    而这些能够实现背后依靠的是扩散模型,这意味着Sora会从模糊充满静态的视频开始生成,然后再慢慢将其平滑处理成你看到的精美版本。
    我们知道之前发布的Midjourney和Stable Diffusio也是扩散模型,但不得不说,Sora制作的视频比它们更长、更有活力、也更流畅。
    Sora感觉像是创建了一个真实的视频,而Midjourney和Stable Diffusio模型感觉像是人工智能图像的定格动画。不过Sora目前还是一个未完成的产品,它可能难以消化复杂的物理或空间细节,进而导致它生成不合逻辑的影片,比如人类在跑步机上跑错方向、比如可能会生成一个人咬饼干的视频,但之后饼干可能没有咬痕。并且可能会难以遵循特定的运镜轨迹。
    OpenAI表示该模型缺乏空间意识可能会混淆左右,并且不理解人或物体如何与场景交互。可以看出,Sora和文生图一样,普遍存在生成内容不够精确的问题,所以,从这个角度而言,它离真正颠覆影视行业还有很大一段距离。随着这两年人工智能热潮的持续推进,相关产品也备受争议。但不得不承认,这些新的工具和产品正在逐渐改变我们的工作和生活方式,一个新的智能世界,正在走来。未来谁能快速掌握这些AI工具和技术,谁才是真正的掌控者。