踢开AGI大门!Sora会让世界成为“太虚幻境”吗?
雷科技
就在前几天,OpenAI发布了文生视频工具Sora,尽管这并非行业首创,但作为AGI的“开宗立派”者的旗舰产品,Sora依然震撼了科技产业。除了引爆科技圈热议外,媒体、文娱等等相关产业均对Sora高度关注,更有消息称“开工第一天,所有VC都在开会讨论Sora”。
Sora从技术上迎来了全面革新,比如说,它能实现长达1分钟的视频内容创作,也能根据需要制作长镜头内容,还能根据不同角色的情感给出不同的镜头语言。如果最终发布的产品的能力,真如视频Demo这般强大,Sora将对流水线制作模式的影视团队带来一些冲击。
马斯克也在个人社交平台当中锐评道:“gg humans(人类愿赌服输)”。
(图源:X)
不过,Sora仍在测试阶段,距离其真正投入使用还有一段时间。鉴于AIGC行业存在“Demo过度”的情况(比如Google Gemini发布会的演示就被揭露造假了),因此Sora发布版到底表现如何还有待体验。至于Sora能否真正引发行业变革甚至像一些媒体危言耸听宣称的“颠覆世界,消灭XX”,其实也还是未知数。
史上最强AI视频工具,到底有何突破?
Sora的最大突破在于能够根据文本描述生成一段长达60秒的视频内容,此前,世界记录的保持者为Runway的Gen-2,最高能创作时长为16秒的视频。但Sora并不是一个纯粹的视频生成工具。
(图源:Sora)
在OpenAI公开的技术性报告中,Sora的真实身份被揭晓:底层是一个扩散Transformer模型,相较于传统的基于二维模型的文生视频产品而言,Sora具有对现实世界物理规律的感知,对于如何生成一段「逼真」的视频,有深刻的自主意识。
OpenAI在Sora的官方网站中放出了多条演示视频,其中一段两只海盗船在咖啡杯中翻涌的视频,展现出Sora对液体的状态、船只的物理形态、运动轨迹的判断多维度的理解。
(图源:Sora)
此外,Sora还能产生多个角色、特定类型运动以及主体背景丰富细节等多种复杂场景的视频,即便用户没有描述这些特定场景的细节,Sora依然能够理解并准确生成。比如说,当你需要一个描述为「晚宴」的视频内容时,Sora并不会止步于饕客们将美食一扫而光的过程与结果,而是会将每一个动作所留下来的痕迹得以保留:咬了一口的汉堡,就会有咬过的痕迹。
事实上,Sora的成功离不开OpenAI公司前两款产品的经验积累,那就是2021年初、2022年末分别推出的图像生成工具DALL.E与自然语言大模型工具ChatGPT,通过它们,Sora获得了对文字描述的理解与图像数据处理的能力。
(图源:Sora)
更重要的是,OpenAI为Sora引入了视觉块嵌入式代码,即pathces,你也可以将其理解为LLM里的tokens,这些pathces就像是一个又一个包含了时间、空间信息的积木块,Sora能够更快速地从中找到所需的素材,为创作者生成视频。此外,这些pathces也能帮助Sora完成高速的自主学习。
Sora还能接受图片和视频输入,生成新的创意视频,又或是根据描述生成多达五个分镜头,包含人物表情特写、动作特写、场景等。这只是目前为止我们能看到的Sora具备的能力,正如前面所提到,Sora是一个扩散Transformer模型,其与生俱来的学习能力才是让人敬畏的关键所在。
很可惜,现阶段的Sora也存在一些问题,例如空间、方位的细节。在官方演示视频里,展示了反向跑步的运动者、凭空出现的狼崽以及从杯底流出果汁的水杯等。
(图源:Sora)
(图源:Sora)
尽管仍有美中不足的地方,但Sora绝对称得上是AI视频的一大革命性突破——是真的革命性,而不是夸大其词那种。
过于聪明的Sora,确实会让人后背发凉?
在所有演示视频中,最令人感到震撼的还是那段一对情侣漫步东京的短片。
(图源:Sora)
Sora通过对现实空间的精确识别,创作出带有动态视角变化的视频内容,视频中,人物、背景都在立体三维空间内移动,就像真实的影片创作一样。
作为一个文本视频生成工具,Sora似乎有些过于「聪明」了,它的到来,也不禁让人对AI在未来的发展产生更多思考。
全球化人工智能企业APUS董事长兼CEO李涛先生认为,Sora的横空出世,带来了三个问题:
1、打造无限逼近真实的场景。
正如我们前面提到,Sora拥有现实世界的「意识」,这意味着它构建的内容基本都会遵循真实存在的物理规律,而这种「虚拟」在未来只会更加「逼真」,这也让我们不禁思考:在AI时代,我们应该如何定义和理解真实与虚拟。
这让雷科技想到了曹雪芹《红楼梦》第一回的这样一段:
士隐接了看时,原来是块鲜明美玉,上面字迹分明,镌着“通灵宝玉”四字,后面还有几行小字。正欲细看时,那僧便说“已到幻境”,便强从手中夺了去,与道人竟过一大石牌坊,上书四个大字,乃是“太虚幻境”。两边又有一幅对联,道是:
假作真时真亦假,无为有处有还无。
Sora的出现,让真实世界与虚拟世界的边界一下变得模糊,在如梦如幻的“太虚幻境”,真假难辨,将给人类带来许多困惑。对此,人类必须要想法来应对。
2、学习能力高度类人。
Sora与之前问世的文本视频生成工具不太一样,它具备高度模拟能力与学习能力,而作为一个有自主学习能力的「模拟器」,参考ChatGPT从3.5到4.0的进化速度,是否可以大胆预测,Sora很快就会成为类人的智能,不光学习速度快,反应能力与反应速度甚至可以超越人类。
3、算力之上芯片落后。
每一个深度学习的人工智能模型,都离不开背后强大算力的支持,Sora亦是如此。如今,中国人工智能所拥有的能力远远落后于此,算力的局限无疑是制约我国AI发展的重要因素之一。因此,加强芯片研发、提升算力水平,是我国人工智能发展的当务之急。
Sora仍在测试阶段,我们仍有时间在短期时间内尝试驾驭它、了解它,同时继续在芯片端巩固地位,为AI提供更强大的底层硬件支持。
AI时代落幕,Sora叩开了AGI世界的大门
在Sora问世之后,马斯克急得像热锅上的蚂蚁,只因Sora是当下最接近AGI概念的产品,而AGI又是马斯克心心念念的蓝海市场。
AGI,即Artificial General Intelligence,又称人工通用智能,是指能够完全模仿人类情感、行为,实现自我学习、自我改进、自我修正的智能计算机系统。尽管Sora当前只展示了其在视频,又或是内容创作上的能力,但其对于真实世界的理解,已经展现出强悍的实力。
(图源:Sora)
为什么三六零周鸿祎说Sora让AGI时代到来的时间从十年缩短至一年?归根结底就是对现实世界的理解能力。AGI最大的特点在于对真实世界的规则,尤其是物理状态、自然规律、化学变化等等因素的反馈。Sora虽然只在内容创作上带来帮助,但谁能确保经过足够的训练,OpenAI不会基于此推出真正意义上的AGI产品呢?
周鸿祎在见证Sora诞生后表示,Sora有别于其他文本视频生成工具,它能理解坦克是有巨大冲击力的,坦克能够冲毁汽车,而不会出现汽车撞毁坦克这样的事情发生。同时,他还认为,Sora只是OpenAI小试牛刀的产品,真正的好戏还在后头。
(图源:微博)
这并非空穴来风,早在去年10月,路透社就曾报道OpenAI已经参与投资至少三家半导体设计公司,其中Cerebras更是一家初创型企业。OpenAI CEO Altman曾公开表示,其工作与产品仍需更多算力提供帮助,目前公司所使用的还远远不够。除去已经投入运营的DALL.E和ChatGPT,以及测试中的Sora,或许还有真正属于AGI时代的产品蓄势待发。
2016年,Google旗下的AlphaGo战胜李世石让深度学习被全世界关注,我们进入了深度学习驱动的AI时代,许多科技产品和传统行业均被深度学习技术改变,这一阶段也迎来了抖音、小红书这样的AI驱动的世界级产品的崛起。
2023年兔年开工,全世界沉浸在 ChatGPT 带来的 AGI(通用型人工智能)的震撼之中,一年之后的今天,Sora再度震撼人类,且是更大的震撼,见过大世面的人类就像原始人发现火种一般激动不已。
毫无疑问,一个崭新的AGI时代的序幕已经缓缓拉开,一个新的智能时代已然到来。或许Sora不一定取代影像工作者,但Sora背后的AGI技术,一定会重构科技产业的秩序,催生抖音这样的世界级产品,赋予人类全新的工具和力量,这一切,都是如此振奋人心。
来源:雷科技