OPEN AI投资Pika,文生视频2024将会爆火?

Ai芯天下

前言:
    随着文生视频软件技术的不断进步,AIGC技术对多业态应用的赋能将加速实现。
    自人工智能推出以来,其已经逐渐从理论框架走向实际应用,其对人力和财力成本的节省效果也将在上市公司的业绩中逐渐体现出来。
    这种变化将对多个行业产生深远影响,并为投资者提供更多有价值的投资机会。
    作者 | 方文三
    图片来源 |  网 络 
    Pika 1.0发布易用性被认可
    2023年11月29日,Pika labs正式发布了其全新的文生视频产品Pika 1.0。
    该产品的视频生成效果和易用性均得到了广泛认可,并在市场上引起了热烈的讨论。
    目前Pika社区已经发展到50万名用户,每周生成数百万个视频。
    Pika的创始人是两位斯坦福大学人工智能实验室的前博士生郭文景和ChenlinMeng,目前Pika已融资3轮,估值超过2亿美元。
    Pika1.0的功能主要包括五方面:文本生成视频以及图像生成视频、视频之间不同风格转换、扩展格式、改变局部内容、扩展视频长度。
    这是一次重大的产品升级,包括一个新的AI模型,能够生成和编辑各种风格的视频,如3D动画、动漫、卡通和电影。
    Pika1.0附带一个工具,可延长现有视频的长度或将其转换为不同的风格,例如[真人]到[动画],或者扩展视频的画布或宽高比。
    支持三种模态的提示输入,让Pika Labs 1.0直接[对齐]了runway家族的几乎所有的功能。
    
    一连串投资人名单非常豪华,几乎所有AI领域的知名公司都参与了此轮融资:
    LightspeedVenturePartners领投,Homebrew
    ConvictionCapital、SV参与,Angel、Ben'sBites。
    
    Quora创始人AdamD'Angelo、前GitHub首席执行官NatFriedman和Giphy联合创始人AlexChung也是投资人。
    OpenAI的科学家Karpathy对图像与视频生成领域的最新发展保持高度关注。他还参与了Pika Labs最近一轮的投资。
    在发布新产品的同时,Pika Labs正式宣布已完成新一轮融资。
    此次融资总额为5500万美元,其中包括种子前轮和种子轮投资,由Nat Friedman和Daniel Gross领投。
    
    游戏传媒业态或率先受益
    目前,一些专注于短视频内容AI口型匹配和翻译的应用,如HeyGen,以及近期备受瞩目的Pika所展现的可编辑性和电影级效果,都是迅速找到与自身产品相契合的市场。
    随着AIGC技术在影视剧集、宣传视频等领域逐步渗透,视频创作效率有望迎来显著提升。
    随着Pika在文生视频领域的应用验证,业内普遍认为游戏传媒类上市公司或将率先受益。
    值得关注的是,目前多家游戏传媒类上市公司已成功将AIGC技术运用到视频或游戏素材的创作中。
    赋能游戏传媒类上市公司只是应用层落地的一个开端,AIGC与多业态相结合将是未来的趋势。
    如果该产品能够进一步发展成为爆款应用,将有望提振市场对AI应用落地的信心。
    参考文生图在广告领域的应用,文生视频同样有望推动生产力革命,降低生产成本和创作门槛,从而加速AIGC技术的产业化进程。
    从能力的角度来看,文生视频有望率先在短视频和动漫两个领域落地。这将为这两个行业带来更多的创新和可能性,进一步推动其发展。
    
    AI视频远没到GPT时刻
    从目前文生视频模型的实际应用效果来看,其生成效果在时长、分辨率和内容合理性方面仍存在一定的限制,这主要源于视频场景的复杂性。
    在数据收集方面,与文生图模型相比,文生视频模型需要处理的数据更为复杂。
    为了学习字幕、帧照片写实感和时间动态,文生视频模型需要大量的数据进行训练。
    同时,由于视频长度不一,将视频切分成固定帧数的片段会破坏文本与时间之间的对应关系,进而影响模型的训练效果。
    此外,从技术角度考虑,要想生成高质量的视频,需要具备强大的计算与推理能力。
    当前的文生视频模型在理解视频对象运动连贯性、日常与非日常场景变化等方面仍有待提升。
    从商业模式来看,文生视频应用的商业化模式与图片生成相似,主要是按照生成量来定价。
    与文生图应用的早期商业化进程相比,文生视频应用仍有很长的路要走。
    整体来讲,AI文生视频领域处于极早期的状态,很难实现精准超长时间和视频质量的满足条件下完成对行业效率的提升。
    各家的优化和迭代速度都较慢
    视频是由多帧图像组合而成,而文生视频在文生图的基础上增加了时间维度,技术实现难度更大。
    尽管像Meta和Google这样的硅谷AI巨头在文生视频领域进展缓慢,它们分别推出的Make-A-Video和Phenaki都尚未公测。
    文生视频的底层模型和技术仍在不断优化中,尚未筛选出最优模型。
    该技术主要经历了基于GAN和VAE、基于Transformer模型、基于扩散模型三个阶段。
    目前主流的文生视频模型主要依托Transformer模型和扩散模型。
    基于Transformer的代表Phenaki突破了视频生成时长限制,但效果相对粗糙缺少细节;
    而基于扩散模型的代表Make-AVideo则更注重提升视频质量,但其视频时长均在4s以内。
    目前可公测的文生视频应用较少,仅有RunwayGen-2、ZeroScope及Pika Labs等少数几个。
    这些应用存在一些共同问题,如复杂人物动作生成帧连续效果较差、非日常场景的视频架构能力连续能力一般、多主体视频生成缺乏逻辑连续性等。
    目前,PiKa等AI文生视频工具都处于1.0之下的版本。
    相对于竞争对手如runwayntwo等有更好的视频分辨率和影视感,但对静态图片的处理能力相对较差。
    但它在专业化的视频内容生产上还有很大的距离,需要大量的数据和模态以及专业能力的结构来完成。
    总体而言,文生视频的商用化程度较低。但从图片生成的应用来看,其商业前景值得期待。
    图片生成类应用在多模态大模型中表现出较强的收费能力,应用数量上占比最高。
    目前唯一收费的文生视频应用(Runway Gen-2)的商业模式与图片生成趋同,即主要按照生成量定价。
    
    结尾:
    当前,市场普遍认为AI应用已经逐步步入成熟期,但尚未出现具有颠覆性的杀手级应用。
    尽管如此,AI应用的发展仍处于早期阶段,对应的算力需求远未达到顶峰。
    部分资料参考:硅基研究室:《Pika爆火,但AI视频还没到「GPT时刻」》,半两财经:《Pika爆火背后“女儿概念股”凸显国产AI应用焦虑》,电子发烧友网:《文生视频Pika 1.0爆火!一句话生成视频,普通人也能当“导演”》