从AI作画到AI做视频，这一跳改变了什么？

2024.05.03 脑极体

九月初的时候，AI绘画作品《太空歌剧院》在美国获得了人类艺术竞赛一等奖的新闻让许多人震惊不已。学多人没有想到，画沙雕图的AI竟然这么快就技能进步到超越了人类。AI作画的时间从年初以小时为单位到现在短到秒级别，并且绘出的图像质量越来越高，几乎接近人类专业画家的水平。我们在社交媒体中也看到越来越多的人分享他们在各种AI作画平台上的作品。

    AI作画的风头正盛，用AI做视频的应用也悄然而至。九月底Meta小扎公布了自家Make－A－Video的AI视频制作工具。这款工具可以生成高质量的短视频。Meta AI做视频的新闻还没有焐热，谷歌也不甘示弱，推出了两款AI生成视频的工具：Imagen Video 和 Phenaki。前者倾向于打造视频质量，后者倾向于视频的逻辑与时长。这几款AI视频制作工具各有特色。
    文本生成图像的AI技术大火才不过几个月，就直接跃升至文本生成动态视频。从画图到做视频，AI的发展速度令人讶异，同时令人对未来的数字媒体憧憬。那么，这种跨越到底会给未来带来什么呢？
    AI做视频是AI作图的延伸
    在讨论AI生成视频会给未来带来哪些改变前，我们先梳理下，AI生成视频的技术原理和应用场景。

    先从Meta家的Make－A－Video看起。在小扎公布的视频中，我们可以看到一场AI制作的视频秀，其中一幕是泰迪熊正在画自画像。仅仅通过文本描述，Make－A－Video就可以生成一段视频。官网的案例中，我们会发现还有一些会飞的超人狗狗、喝水的马等，这些视频都是由AI生成的。
    谷歌的Phenaki工具也类似Make－A－Video，可以通过一系列的文本提示生成有故事性的连贯视频。如官网展示的骑马太空人、游泳的小熊等。
    从AI作画到AI制作视频，静态的图像创作又转化为动态的视频演绎一些简单的情节片段，这些是如何依靠技术达成的呢？
    AI绘画的原理，简单来说是通过神经网络模型将图像与文本连接，基于大规模的图文训练集对比学习训练，提取文本与图像特征互相匹配，最终生成关联程度较高的图像。
    与AI作画相比，AI生成视频需要多个AI模型的配合来完成视频的制作。作画与做视频的第一步都需要预训练文本－图像模型，先由文本生成大量的图像。而后续的步骤就出现较大的差别。AI生成视频，在完成基本的图像生成之后，还需要将这些图片连起来，变成动态清晰有逻辑的视频。这就需要额外增加插值模型来处理图片变成一帧帧流畅的视频动作，用超分辨率模型来提升图像的像素。通过这些模型的处理，让前后帧之间的过渡动作更加平滑，画质的像素质量更高，最终生成高分辨率和帧率的视频。
    相较于AI作画，从技术上来看，视频可以认为是多张“图片”有逻辑、连贯的组成。视频帧是一张张图像，各帧之间有画面、逻辑等层面的关联。因此，由文生图与由文生视频完全是两种难度级别。AI生成视频，是AI生成图像的深度延伸。
    AI生成视频相对更难实现。为什么AI研究人员会向视频领域的创作进发？AI做视频到底有什么应用价值呢？
    AI做视频价值几何？
    移动互联网的繁荣，催生出了各类社交和流媒体平台。这些平台中丰富的图文、视频内容，成为当代人碎片时间的精神食粮。伴随短视频平台和直播行业的兴起，人们对内容的需求越来越旺盛。这也筑造了规模庞大的泛内容产业。
    对于内容的创作，核心的是创意与效率。但以人为核心模式的创作模式在高速迭代的内容产业中似乎越来越赶不上趟。应用AI技术来辅助内容创作的AIGC模式，开始渗入到泛内容领域中。
    从视频的创作角度来说，在脚本外，寻找匹配适合的视频素材是创作的核心。虽然行业内有大量的素材库，但寻觅素材的过程耗费时间，并且也不一定能找到符合脚本内容的视频素材。
    面对提升效率与贴合脚本内容的需求，AI生成视频工具可以很好地解决这类问题。谷歌和Meta的AI视频工具都可以基于文本描述生成视频。

    Make－A－Video目前可以实现文字转视频、图片转视频、视频生成视频三种功能场景。谷歌Imagen Video不仅能生成高清视频，而且能理解并生成不同艺术风格的作品。而谷歌Phenaki目前可以做到文字转视频，并且根据文字描述可以生成较长、情节连贯的作品。Phenaki瞄准的是长视频的制作。
    无论是短视频领域，还是长视频领域，面向这些行业，AI生成视频都会为视频内容行业的发展赋予价值。
    1．提升视频制作效率的同时降低制作成本。传统的视频制作需要脚本、收集素材、剪辑等流程，每一项工作都需要耗费大量的时间与成本。AI生成视频可以通过文本生成视频，或者由图片、视频等素材生成视频，可以降低拍摄或搜集视频素材的成本。AI可以对应着脚本文本的描述，就能生成视频，大幅提高视频制作的效率。
    2．增加丰富的创意。AI大模型可以遍历学习所有的创意与风格。从内容的丰富度来说，人类无法企及。通过不同风格、创意素材的喂养，AI视频生成可以创作出多种风格融合的作品，补充人类制作视频的创意。
    3．增加内容产业价值。AI视频生成对视频内容领域的革新，为行业带来新的应用场景与新工种。AI作画已经诞生出了新的职业AI画师。类似AI作图，AI做视频也会诞生出新的职业，AI剪辑师，应用AI工具创作视频。未来AI生成视频将会与游戏、影视、媒体等多行业结合，与元宇宙、AR、VR等场景碰撞，创造出更多的场景与产业价值。
    不过现下AI生成视频的发展处于非常初级的阶段，并不能完全生成出较完善的视频。我们在谷歌和Meta中看到的视频，仍然存在许多问题。比如视频动作过渡不自然、理解角度诡异、视频分辨率不高等。这些情况的出现原因在于AI工具模型的能力不高，对模型投喂的素材数据质量有一定的要求。如果这些问题得不到较好的解决，也会限制未来一些场景的应用可能，如对于像素和逻辑要求较高的商业影视剧。而短平快的小视频根据分发渠道的不同，质量的参差带来的影响不同。但归根结底，高质量的视频内容商业化的可能性会更大。
    未来的商业模式
    AI生成视频，未来的商业模式取决于不同的应用场景。面对一些制作短视频为主的小B端企业，如媒体、广告、电商等行业。谷歌、Meta等AI企业会为这些小B端企业提供AI视频制作应用服务。类似AI作画的商业逻辑，可能提供按次收费、按时长付费或者是按照不同功能与需求的制作收费，助力这些行业提升内容创造的效率，增加在线视频领域的流量。不过这种商业模式的发展必须以规模化支撑，这样才能有可持续发展的可能，毕竟AI厂商的视频工具开发与运维成本较高。
    对于以流媒体平台分发为主，制作中长视频的影视行业来说，需求的频次与质量要求较高，因此AI厂商需要提供的是解决方案为主的服务，甚至是定制化的服务，提供专属的创作模块，比如特效、运镜、转场等模块化工具。这种商业模式的价值高，但对于整个影视行业以及上下游产业链来说，是巨大的变革。产业需要花费较长时间地过渡与适应。
    除了影视企业以外，游戏行业与AI视频制作也会有可能碰撞出火花。游戏行业的视频内容开发可以借助AI生成视频来提高创意与效率，降低开发的成本。对于游戏行业的商业模式也会类似影视行业提供专门的行业解决方案。
    当然，整个产业领域中，也有一些企业对视频生成的需求并不高，但也不是完全没有需求。比如大多数小企业都需要简单的企业宣传视频，或是年度的几场活动需要视频内容宣传支持。一年可能就两三次的需求，频次较低。这些企业并没有专业的视频制作人员，可能会选择应用AI生成视频工具。

    如果观察的视角从企业转向个体的话，大部分个人消费者也可以应用AI生成视频来娱乐。就像AI作图一般，AI生成的视频也会成为新的社交媒体话题。网友可以通过输入文本指令生成各种各样的视频，交流创意。我们或许会从被投喂的角色，转化为创作者互相分享，交流创意与思想。
    这些商业模式的可能性建立在视频内容优良与成本合理的前提下。未来AI视频商业化的过程中，可能依然会面临版权和伦理的问题。无论是素材库还是AI生成视频的风格养成，都离不开人类创作的图像、视频等内容。AI工具需要这些人类创作的图像数据训练迭代。这也意味着在版权方面依然存在归属争议的灰色地带。伦理方面，当输入暴力、血腥、黄色等敏感信息，生成的内容可能会陷入伦理道德的困境。这些问题会伴随着视频生成长期存在，需要设置更好的机制与模式去减少这类事情的发生。

与AI做视频不同，AI作图最终内容可以抽象。这种图像内容可能艺术价值更高。但对于视频来说，内容必须连贯、有逻辑。这也对AI生成视频的能力提出了要求。AI生成长视频是否有逻辑，可以根据文本表达出故事性，仍然是个未知数。尤其是一些深度的内容制作，AI是否能够创作出这类内容需要打个问号。而这些AI到达不了的领域，就是人类创作的价值地所在。
内容的创作，艺术的创作最终导向的是连接，或者是连接智慧，或者是连接灵魂。人们借由艺术表达共鸣，而这些都是AI去不了的场域。未来，或许在AI的内卷下，是人类高质量内容创作的高峰。