AI作画爆火背后,一半海水一半火焰
洞见新研社作者 | 辰纹
来源 | 洞见新研社
“未来十年,AIGC(人工智能自主生产内容)将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”
李彦宏7月在百度世界大会上的发言话音未落,AI作画的风潮如同一场旋风,席卷了互联网的每个角落,不光引发了社会各界的广泛讨论,而且开始从专业领域走进普通人的生活。
曾败于AI的天才棋手柯洁、知名画师乌合麒麟等都曾参与过相关讨论,闲鱼上甚至出现售卖AI绘画作品的帖子,“1分钟内出图”,“5元4张”,主打一个低价高速。
而随着像百度、华为这样的科技巨头以及资本的入场,更是将AI绘画的热度抬高了一个等级。
百度和华为分别推出了各自的AI绘画平台“文心一格”与ModelArts。
生成式AI平台“TIAMAT”则在10月12日宣布完成由知名风投机构DCM投资的数百万美元天使轮融资。
在此之前,Stability AI获得了1.01亿美元种子轮融资,正式晋升独角兽行列;几乎同一时间,另一家人工智能独角兽公司Jasper也宣布获得了1.25亿美元的新融资。
AI作画爆火,展示了AIGC技术的突破进展,当然有值得高兴的地方,可技术的进步与落地如何产生价值,进而引导相关行业完成生产力与生产关系的重建,却仍有诸多疑问待解。
01 为什么是AI作画?
AI作画并不是什么新鲜事物,早在2012年就已经有所发展,只是AI绘画的早期作品看起来还很粗糙,直到今年年初时,AI绘画还只停留在“能看”的阶段。
其实对比一下现阶段的AI写作、AI作曲、AI配音、AI唱歌等技术,可以发现这些活AI都能做,但与人类相比,存在明显的差距,当时的AI绘画大致也是这样的水平。
大众对AI绘画观感的转变发生在今年8月,美国游戏设计师Jason Allen用一张AI绘画作品《太空歌剧院》,拿下了美国科罗拉多州博览会美术竞赛一等奖。
大赛评委对这副AI作品的评语是:即使它是AI生成的作品,也依旧配得上这样的成绩。
虽然这副作品在AI生成之后,设计师还进行了上千次的修改,花费了近80个小时才完成,但并不妨碍公众对AI能力的重新认识:原来AI绘画已经可以超越人类了!
《太空歌剧院》能获得专业评委认可并获奖,背后支撑技术的突破功不可没。
在今年年初时,AI绘图软件Disco Diffuion解决了效率问题,可以在很短的时间内批量生产绘画作品;
后续几个月,经过DALL·E 2与MidJourney等AI绘画平台的相继测试,AI已经可以生成符合大众审美要求的人物形象;
到了7月份,Disco Diffuion成功解决了细节与效率的问题,AI绘画的精度提升到艺术品级别,生产效率提升到秒级,创造所需的门槛也大大降低,普通电脑甚至手机也能适用。
AI绘画最终引爆的导火索当属Disco Diffuion的开源,此次开源开放的不仅仅是程序,还有训练好的模型,这大大降低了AI绘画创业的难度,同时也对技术的普及起到了极大的推动作用。
在技术之外,C端用户的疯狂追捧,也成为AI绘画爆火的重要因素。
相比其他AIGC创造,AI绘画的门槛更低,参与度更高。
最开始时,MidJourney、Disco diffusion、Stable Diffusion等AI绘图平台生产了大量AI绘画作品,这些作品在推特、Facebook等社交媒体平台发布后,引发大量用户围观,特别是当用户输入几个关键词,就能在十几秒内生成一幅高质量的绘画作品,极大刺激了用户的参与热情。
在中国,是由摇滚乐队万能青年旅店的MV作品《杀死那个石家庄人》在B站率先引爆的,这个MV的每个画面都取自歌曲的歌词,由Midjourney平台生成。
在此之后,《七里香》《孤勇者》《加州旅馆》《波西米亚狂想曲》等热门歌曲都被UP主们用AI绘画的作品作为MV的素材重新创作了一次。
对此,有专业人士评述,对于用户而言,AI作画让原来没有绘画基础的人,能够享受到创作带来的愉悦,对于一些专业画师,则是一个很好的工具,能够更有效率的完成作品。
B站上有个热评,在一定程度上反应了C端用户喜欢AI绘画的原因:一是出概念、找灵感,二是当成P图素材与手工结合。
02 一座待挖的金矿
那么问题来了,AI绘画能赚钱吗?又该怎样赚钱呢?
AI绘画平台们面对汹涌而至的C端需求,利用社交平台的引流,推出类似于付费服务或者“会员制”的收费模式。
由于目前面向C端的AI绘画平台大多为轻量级的工具应用,能够展现出来的玩法和内容场景都比较有限,同时C端用户进入AI绘画平台,大多出于好奇尝鲜的目的,当新鲜感过去之后,如果不是专业人员,很难再刺激用户进行二次消费,因而当前这种纯粹To C的商业模式的根基并不稳固。
但若围绕AI绘画在C端用户中的社交属性,以及AIGC本身所包含的内容社区属性去挖掘,则仍有一个非常大的成长空间等待开拓,利用微信小程序,创造了日增5万用户的纪录的AI绘画平台“盗梦师”团队也认为这是一个机会,但“难度很大”。
数据来源:剁椒TMT/网络综合 制图:洞见新研社
事实上,AI绘画平台将更多的目光瞄向了B端市场。
五大时尚刊物之一《时尚芭莎》在36周年纪念刊特地邀约了几位AI画手,借助AI绘画工具完成了一幅东方美学与超现实主义相结合的画作,这可视为AI绘画在B端应用的一个典型。
《时尚芭莎》36周年纪念刊 @栗米桃创作
而在医疗、工业设计、动漫设计、游戏制作、服装设计等领域中,AI绘画可以施展的空间就更大了。
比如,有一种心理咨询疗法叫绘画艺术疗法,有的病人很难用语言表达自己的心理状态,咨询师就会请他们绘画,从画中看出他们的心理状态。
但不是每个病人都会画画,如果在其中应用到AI绘画的能力,病人表述画作的构思与关键词,AI生成画面后经病人确认,或可为心理咨询疗法提供更多的支持。
比如,网络小说与漫画的联创,通常情况下,小说的写作速度会高于漫画的绘制速度,但有了AI绘画后,可以大胆想象直接将小说的内容生成漫画图片,此时不光提高内容生产速度,更是整个内容生态的重构。
再比如,在元宇宙的世界中,从元宇宙场景的创建,到个人自我角色在元宇宙中的内容创作,AI绘画乃至AIGC都是不可或缺的一项能力,很多专业人士认为,AI绘画乃至AIGC与元宇宙的结合是必然趋势。
其实AI绘画能够落地哪些场景,行业都有共识,在技术之外,AI绘画平台之间竞争的焦点则在于成本。
针对B端市场,面向一个特定行业时,AI绘画要对相关模型进行大量的专业训练,其中需要花费高额模型训练成本,当营收无法覆盖研发支出时,其商业模式也就无法成立了。
特别是当AI绘画或将取代专业画师时,企业需要考虑的因素就更多了,两者之间的成本差是一方面,更重要的是,企业会要求AI不但要便宜,还要比人类画的更好,才会有动力和足够的理由推动变革的进行。
03 什么是中国式AI作画该有的样子?
回到中国市场,在行业内普遍由DALL-E 2和Stable Diffusion等国外模型唱主角的背景下,如何让AI绘画更好的表达中国元素成为一个不容忽视的问题。
为什么要这么说,我们先来看看一副AI绘画作品是如何产生的。
在盗梦师小程序中输入文本:
沐浴在晨光里;山顶上有中国式建筑;壮丽的、奇妙的;约翰·豪;山水;湖泊;云;早晨;农田;王凌;神话;光效;梦;格雷格·鲁特科夫斯基,虚拟引擎;詹姆斯·格尼;ArtStation
几秒之后就能生成以下一副作品。
盗梦师小程序AI作品
很明显,模型对中文语义与中国文化的理解非常重要,特别是在实际落地阶段,模型如果不能理解具有中国特色的行业特点,那么AI绘画出的产品将很难适用行业及场景的需求。
对此,盗梦师虽然用的是Stable Diffusion模型,但对该模型进行了中国本土化的改造,用自己写的follow instruction的方式对模型进行训练,并且加入了大量本地化数据。
TIAMAT也认为,AI模型的训练过程其实和小学生练习写作的过程非常相似,不断吸收优秀作品的写作风格、修辞手法,才能最终创作出一篇高分作品,其中采用中国元素的数据资源进行训练是极为关键的一环。
百度发布的AI绘画平台文心ERNIE-ViLG 2.0中,则采用了知识增强算法的混合降噪专家建模。
为了能够准确理解用户在使用AI绘画应用时输入文字的语义,特别是一些复杂描述,ERNIE-ViLG 2.0通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的精确理解。
为了增强AI绘画生成作品的精细度,ERNIE-ViLG 2.0又引入了基于时间步的混合降噪专家模型来提升模型建模能力,让模型在不同的生成阶段选择不同的“降噪专家”网络,从而实现更加细致的降噪任务建模,进而提升生成图像的质量。
众所周知,要想提高AI作画的能力,特别是对中文语义和中国文化的理解,就必须有大量的中文图文数据对模型进行训练,这是一个极其繁琐与耗费时间与金钱的过程,如果没有足够多的市场需求,一般的AI绘画平台不会投入太多资源。
百度不同,它在搜索、AI以及深度学习框架等业务的研发中已经积累了海量的中文图文数据资源,这些资源可以随时调用,同时也成为ERNIE-ViLG 2.0的核心竞争力,相比其他模型,ERNIE-ViLG 2.0在表达具有中国风意境的画作中表现更为突出。
在某种程度上来说,AI作画的技术突破虽然是由美国带动的,但中国的跟进速度并不慢,演化到现在,AI绘画并不是简简单单的市场开拓方面的商业竞争,更是关乎到自主掌控AI关键技术的竞争,而其中取胜的关键是技术研发过程中寻找市场的内生需求,通过因地制宜的本土化适配,做好细分市场和细分场景的落地。