今天,你“文生图”了吗?

知顿

    最近一段时间,“文生图”异常火爆,或者叫AI绘画、AI作画,其实叫什么不重要的,重要的是本质,就是这一新技术究竟会给社会带来怎样的影响或颠覆。
    随着一幅幅精美的“文生图”绘画作品出现在网络空间,抖音开始出现各种教授网友制作文生图的视频教程,而在小红书和闲鱼上甚至还出现了卖AI壁纸、AI文生图描述语句的职业。
    简单来说,文生图,就是输入一些描述语句,AI可以为你生成创意画作,这是当下AI最火热的应用领域之一——AI作画。其实也是AIGC的一种。最近几年,AI写作、AI作曲,AI在内容创作方面的应用可谓越来越广泛了。
    
    对于“文生图”这样一个新事物,无论是百度、谷歌这样的互联网大厂,还是新锐创业公司都已入局。
    最近,百度旗下的AI艺术和创意辅助平台——文心一格的发布引起比较大的关注。毕竟以人工智能技术驱动发展的百度,此前已经在搜索引擎、自动驾驶、数字人、AI语音交互等领域取得了不俗的成绩,在AI作画领域,百度的“文心一格”也备受期待!
    文生图作画效果怎么样?
    文生图效果好不好,先来上一组图,大家自己看。
    
    我也亲测了一下,整体效果还不错!
    比如输入“晴朗夏日竹林里的少年”,生成了这样一幅图!
    
    基本符合预期。
    输入“古风美男,长发飘飘”,选择动漫风格。就出现了下面这张图。
    
    用这张图片用来给一篇分析二次元、国漫方面话题的文章配图肯定是ok的。
    
    输入“深秋,阳光下的小女孩”。基本可用。当然也有不足的地方。比如手部细节不够完美。这几乎是目前所有“文生图”平台的通病,就是脸部细节和手部细节的呈现不够完美。需要平台提供就文生图画作局部调整的功能。比如圈定要修改区域,输入描述,然后进一步优化,就能输出调整后的结果。估计,这将是“文心一格”下一步要上线的功能。
    再输入“深秋一位打太极拳男子的背影”,出来的图片,背影不完整。
    然后输入“天空中的一条龙”,出来的龙并不是我想要的中国龙,重新调整词汇,输入“云层中一条咆哮的中国龙”就得到了想要的结果。
    尝试下来,整体感觉,输入一句话比输入几个词汇结果更令人满意,描述字句越详细,画面细节也越丰富。
    时间方面,“文心一格”显示“请等待2分钟”,但是通常是几十秒,就能得到四种结果,供用户选择。
    之前使用过Stable Diffusion的AI做图,由于只支持英文交互,所以对于英文一般的我而言,还是比较限制表达。虽然现在有各种翻译软件,但是还是比较麻烦。百度的“文心一格”无疑更适合中国用户。
    不难看出,“文生图”技术,对中文语义的理解尤为关键。对于设计师而言,能准确理解客户需求就能交付好的作品让客户满意。对于AI作画同样存在这个问题。这一点“文心一格”还是比较优秀的。
    比如输入“草原上奔跑的宝马”,究竟是什么马?究竟是汽车宝马,还是一匹骏马?输入“佛跳墙”会出现什么样的内容?是一尊佛从墙上跳下来,还是佛跳墙这道菜?对比一下文心一格与其他文生图平台的结果,“文心一格”显然对中国文化的理解更精准。
    
    如何做到对需求的准确理解?
    在我看来,对需求的准确理解,应该是“文生图”这项技术最重要的能力。那么,如何做好这一点?
    百度技术中台事业群市场部负责人张全文提到了一个关键词——大模型。
    张全文介绍:“文心一格”“AI作图”产品顺利落地,是百度依托于飞桨、文心大模型持续进行技术创新的结果。百度的文心跨模态大模型ERNIE-ViLG 2.0是全球首个知识增强的AI作画大模型,也是目前全球参数规模最大的AI作画大模型。近年来以深度学习为代表的算法发展,以及数据量井喷式增长,让百度在训练大模型方面取得了长足的进步。
    所谓大模型,就是让算法在大规模、海量的、没有标注的、无规律的数据里面进行自我学习,挖掘规律,进而生成一个基础的模型。之后在这个基础的模型之上,结合各个领域的少量的任务数据,再进行训练、调优,之后就可以适用很多场景。
    今年7月,百度用大模型复原了元代画家黄公望的传世画作《富春山居图》。这幅画作在之前被火焚烧,分成了两段,2011年前后半卷首次在台北故宫博物院展出。百度的工程师,运用AI大模型技术去学习原画做的笔触和风格,并邀请普通用户借助百度的技术,按照心中所想来补全该画作。不同的人呈现出不同的《富春山居图》,每一幅画作却都那么和谐,不禁令人惊叹AI技术之妙用。
    在科技想象力不断破圈的今天,AI作画正处在高速发展的黄金阶段。相信,不久之后这项能力就会成为用户日常获得图像内容的基础选项,完全融入我们的生活与工作之中。
    除了AI作画之外,文心大模型投入产业应用,服务千行百业的节奏应该也是非常快的。
    据张全文介绍,文心大模型具有两大核心特色,一是知识增强,二是产业级。得益于两大特色,文心大模型通用性好、泛化性强,作为人工智能“基础设施”的一部分,进一步拓宽了人工智能技术落地的场景覆盖广度,更加深了产业应用的深度。
    目前,文心大模型已大规模应用于搜索、信息流、智能音箱等互联网产品,并已通过飞桨开源开放平台、百度智能云等赋能到工业、能源、金融、通信、媒体、教育等各行各业。
    帮助有图片需求的人“降本增效”
    有了文生图以后,作为从事自媒体工作的我来说,还是非常开心的。毕竟对于自媒体创业者来说,只要能“降本增效”的技术都是要积极拥抱的。
    此前为了节省图片制作成本,尝试过各种大小网站,海报制作,AI抠图,照片转漫画等等。本着节约设计费的角度,能省一张是一张。几年下来,充值了五六个网站,也没能很好的解决这个问题。仍然需要人工设计来完成公众号封面制图工作。文章内的配图,则是尽量少配图,甚至不配图,避免侵权问题。
    熟悉知顿公号的朋友到知道,我们在一番尝试之后,将公号图片风格确定为漫画风格,目前是真人画师手绘。好处是有颜值,有识别度,有一致的风格,有自己的版权。付出的代价是按照数量付费,用得越多,成本越高。
    文生图技术的出现,确实可以部分替代封面图设计制作问题。如果能定制风格,或者输入参考风格的图片,那么这个替代作用会更好用。
    目前“文心一格”还处于免费阶段,即使日后收费,大概率也是按照会员收费,整体成本还是要大大低于设计费用。
    估计该技术将在设计、绘画领域率先落地,特别是影视、动漫、游戏、漫画、媒体、广告、出版、时尚、媒体等行业,大面积商业化指日可待。
    文生图会取代人类画师吗?
    这么一来,可能很多人要担心:“设计师、画师是不是要下岗了!”其实,这个担心不无道理,但是历史的车轮永远向前滚动,新技术的对传统领域的解构和重塑一直都在发生。
    短期来看,文生图是AI辅助创作,还是很难代替设计师、画师的。毕竟真实世界的需求,很多是目前AI技术无法精准理解和实现的。积极的一面是,设计师、画师可以借助AI,提高自己创作的效率,甚至激发无穷的想象力。毕竟AI从海量数据中学习到的知识,是灵感得以实现的基础,人类画作数千年的积累和沉淀为AI文生图提供了可能;AI生成图像过程中的随机性,是灵感的补充,AI可以学习一千种人类绘制山峰的方式,甚至创造出“第一千零一种可能”。
    但是,也必须承认,AI作画确实会给一部分缺少创意能力,设计和绘画水平一般的人带来冲击。
    回顾人类发展历史,新技术的出现,改变了很多行业。比如电脑的普及和输入法的出现,让打字员这个职业迅速消失。其实,一些职业的消失也并不是坏事。比如中国古代每个女人都是要学习针织刺绣这样的女工手艺,以满足一家老小的穿衣需求。即使在我小的时候,冬天穿的棉衣裤、春秋穿的毛衣毛裤也都是母亲手工制作。那时候有“裁缝”这个专门的职业,而如今裁缝这个职业基本消失了,却出现了服装设计师。精细化的分工,让服装实现了工业化生产和流通,人们随处都可以买到服装。
    当技术浪潮来临之际,做弄潮者,还是被拍死在沙滩上,答案不言而喻。作为绘画创作者,主动去拥抱“文生图”这样的新技术或许是最好的选择。正如人工智能专家吴军说过的那样,“任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长的时间里都将是迷茫的一代。”
    点燃普通人的绘画创作热情
    不同于设计师和画师,AI作画那么对于普通用户又意味着什么?
    在我看来,更多的是点燃了普通人的创作热情!
    举个例子:一位爸爸,通过文心一格,给女儿做了一个绘本。讲述了他和妻子从学生时代相识、相爱,到结婚,以及妻子怀孕,给女儿布置房间,女儿长大成为一名小学生的过程。不懂绘画的爸爸,通过AI绘画的方式,配上自己充满爱的语言,给孩子亲手制作这样独特的记忆绘本。
    
    
    绘画是一个需要长期培养,投入一定时间的技能。每个人小时候或多或少都有绘画创作的热情,但是,这种热情往往在漫长的技法学习与练习中被逐渐磨灭,能坚持下来的毕竟是少数。AI绘画可以让没有绘画基础的普通人,点燃创作热情,实现创作自由。
    当技术降低创作的门槛,就会使得这一领域迅速繁荣起来,就如同生物界的“涌现”。在AI绘画领域也一定会出现这样的“涌现”情况,这大概是这项技术给普通人带来的新机会。
    关于AIGC的发展趋势,百度CEO李彦宏曾表示,未来AIGC将走过三个发展阶段:“助手阶段、协作阶段、原创阶段。在第一阶段,AIGC将辅助人类进行内容生产;第二阶段,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;第三阶段则是原创阶段AIGC将独立完成内容创作。”显然当前我们还处于第一阶段。“随着技术的突破,AI作画,AI创作视频,甚至构建整个虚拟世界可能变得像手机拍照一样简单。”对于AI绘画,我们可以有更多的期待!
    如何避免技术作恶?
    每一次新技术诞生之后,人们总是免不了担忧。“文生图”技术是否会也被滥用,坦白说,很难完全避免。
    比如输入倒在血泊中的一匹马,可能平台会提示,请修改输入语句。但是将语句调整为,一匹马倒在红色的湖泊中,AI就能自动生成图片了。这方面就需要平台对搜索词汇进行甄别了。我们有理由相信,有着20年搜索引擎经验的百度,无疑会比其他公司做得更好一些。困难虽然多,但是总会找到解决的方法,不至于因噎废食。
    百度董事长兼首席执行官李彦宏曾提出人工智能伦理的四原则,即 AI 的最高原则是安全可控;AI 的创新愿景是促进人类更平等地获取技术和能力;AI 的存在价值是教人学习,让人成长,而非超越人、代替人;AI 的终极理想是为人类带来更多自由与可能。
    “这是技术可以有所作为,也应当有所作为的方向”深以为然十分认同!(文 / 知顿 书华 )