AI作画的人机战争走向何方？

2024.05.03 脑极体

    AI对于人类职业的影响及其引发的舆论波澜，迅猛到让人难以想象。还记得2017年，AI还是个标准的新生事物，我们的核心工作之一就是向读者们解释，同声传译、漫画作家、主持人等人类工作短期内仍是无法被AI取代的。而到了今年，一场因AI作画而引发的人类画家危机大讨论却在国内外社交媒体上演。
    DALL－E 2， Stable Diffusion， Midjourney， DreamBooth AI， Wombo Dream， Make－A－Video， Novel AI……这些从文本生成图像的AI作画工具大量出现，越来越受欢迎，市面上由AI生成的画作越来越多，不断刷新着大众对AI能力边界的认知，大量围绕AI作画的争议、AI取代人类画手的忧虑，喷涌而出。

    在AIGC的激变时刻，关于AI作画的法律、伦理等问题也变得愈发重要，这场人机战争究竟走向何方？我们尝试用一文说清整个事件的起承转合。
    起：引发众怒的科技与狠活
    AI生成的艺术画作已经存在了很长时间，2017年，AI绘画就成为佳士得、苏富比等高端拍卖场所的座上宾，拍出过数百万美元的高价，除了引发行业内人士的一些分析和唏嘘之外，大众舆论场并没有掀起什么波澜。
    然而，对AI作画的声讨，却在近几个月来，在社交媒体中发展到了一个高峰。
    其一，大量画师宣布抵制AI。今年8月29日，一个名叫mimic的AI绘画网站上线了测试版，允许用户上传15至100张图像让AI进行学习，然后输出相同画风的AI画作。然而一些未经授权的画作也被上传学习，把AI生成的画作当做自己的创作进行售卖。随后又出现了有人将刚刚去世的画家尚在版权保护期间的作品上传给AI学习，这些动作相继引发了大批原创作者的不满，从而抵制“AI学习”。

    其二，舆论危机波及几乎所有主流AI绘图工具。mimic事件直接激发了大量画师和读者对AI的不满情绪，有人删除了自己的公开画作，有人开始诉诸法律条文，一时间针对数据版权、技术伦理等的争议，也开始波及DALL－E 2、Midjourney和Stable Diffusion等知名AI生成工具。人们发现，一些很火的工具如NovelAI，训练学习所使用的数据来源网站也存在上传无授权图片的情况。
    网站Danbooru发布的声明显示，像NovelAI这样的生成器是在数千个网站的数十亿张图片上进行训练的，包括Pixiv、Twitter、DeviantArt和Tumblr等艺术家网站，以及Reddit、Pinterest等网站，所以从Danbooru平台上删除作品并不会阻止AI继续使用画家在其他网站的作品。也就是说，只要是网络上开放的，就有可能成为学习数据，除了询问模型的开发者之外，没有其他方法可以阻止自己的作品被AI学习，除非画家把自己的画全网都删完，否则也很难一一查清楚是否被用来学习了。

其三，个人使用AI作画出现了大量争议现象。随着开发门槛的降低，大量个人AI开发者使用开源工具也出现了大量意料之外的情况，比如有人使用AI生成yhsq等违规内容。9月6日，用AI绘图工具Midjourney生成的《太空歌剧院》在美国科罗拉多州举办的博览会艺术比赛上获得数字类别中的头奖，也引发了不小的争议，因为作者所付出的劳动就是输入描述文字，AI就会将画作按需求创作出来，被网友认为是“见证了艺术的死亡”“没有意义，没有灵魂”，艺术家Genel Jumalon更直言，“用一幅AI画作在艺术领域获得一等奖，真是该死的事”。

    （《太空歌剧院》）
    担心AI取代人类画师，将AI作画视为对人类能力的贬低，成为一种正在传染的情绪。
    如前所说，AI生成绘画并不是什么新鲜事物，为什么偏偏近期突然在大众群体中掀起了水花，引发众怒？人当然不是只靠最后一根稻草压垮的。
    承接：AI作画的内卷之路
    有必要先来简单了解一下，AI作画是如何在几年间从拍卖行、收藏家们关注的小众艺术，成长为大众创作的主流标配。
    计算机视觉一直是深度学习的主要任务方向之一，包括目标识别、目标跟踪、图像分割、图形处理等，有着大量成熟且广泛的应用。具体到图像生成领域，2015年左右，AI艺术创作主要是通过基于卷积神经网络的迁移学习，来进行图像风格转换，先对图像内容进行语义分割，再将内容和场景通过线条弯曲、风格迁移等手法，转换成指定艺术风格，类似美颜软件的“滤镜”功能。显然，这种生成方法的艺术价值并不高，能一键p图的人也并不因此就自认是大艺术家，而且经常出现很鬼畜的作品，谷歌深度学习绘画系统DeepDream加工过的图片就十分诡异。
    AI生成真正开始展现出艺术价值和媲美人类的水平，是从2016年生成对抗网络GAN（Generative Adversarial Nets）的走红开始的，GAN模型的原理就是让生成器网络和判别器网络相互对抗，从而创作出真实度和准确度都更高的全新图像。这一时期，各种XXGAN的图像生成器出现，诞生了大量“以假乱真”的艺术作品。2018年10月佳士得以43．25 万美元的价格拍卖了由AI创作的《爱德蒙·贝拉米肖像》，成为人类历史上首次AI艺术品拍卖。

    但是，GAN也不能摆脱传统AI深度模型的问题：无法理解“逻辑”和“常识”，比如AI能够根据文本关键词把元素堆叠在一起，但因为无法理解隐藏在自然语言背后的逻辑关系，所以经常会画出非常“克苏鲁”的反常识作品。而改变，来自预训练大模型的兴起。
    通过大规模数据和暴力计算而训练出来的大模型，展现出了强大的鲁棒性，不仅在机器视觉领域表现优异，而且还不断迭代出了跨模态生成的能力，推动AI生成从语言走向视觉。这一波 “文本转图像”绘画工具能够产生以假乱真的画作，背后的“脑力”普遍来自大模型基础技术的支撑。在AI绘画工具上展开技术竞赛的谷歌、OpenAI、百度等都是大模型技术的佼佼者和AIGC的推动者。

    （KREA一键生成的安迪·沃霍尔风格的“赛博朋克脑极体”）
    读懂了AI作画的技术传承之路，也就不难理解，为什么AI创作的争议会在此时此刻被发酵。
    首先，巨头云集，技术进展超乎想象。AI作画汇聚了大量科技巨头“亮肌肉”，包括谷歌、OpenAI、Meta、微软、百度、腾讯等AI能力者，使得技术突飞猛进，工具数量以前所未有的速度爆发性增长，AI作画（图像生成）能力也因内卷而达到令人震惊的水平。2021年1月，OpenAI推出了DALL－E一年后，又推出了最新的DALL·E 2，分辨率提高4倍，可以从自然语言的描述中创建逼真的图像。谷歌内部就卷出了多个AI绘图工具，包括Imagen、Parti等，微软推出的AI绘图平台则起名为NUWA女娲，足见野心不小。
    大模型优秀的生成效果，使得AI作画具备了一定的实用性和商用潜力，包括结合文本生成插画、创意工作的初样展示、自动完成勾线等重复机械劳动等，AIGC在走向产业的同时自然面临传统从业者的怀疑。

    （DALL－E以“骑马、宇航员”为关键词创作的绘画）
    其次，大模型的积极开源，让AI作画门槛一降再降。
    这一轮主流的AI绘图工具都选择了开源，繁荣大模型的开发生态，降低技术的使用门槛，任何人都可以使用这些工具进行创作，有的甚至是免费的。比如英国初创公司Stability AI打造的StableDIffusion就完全开放，OpenAI在9月28日开放了Dall－E 2 并提供免费试用，NovelAI在10月3号开放，都吸引了大量用户前去使用。
    相比此前AIGC只作为小众艺术品和收藏投资对象，基于大模型的AIGC让更多人参与到训练、开发和使用中来。尽管各个开源社区都明确公布了知识产权相关规定，包括不得用于成人内容、仇恨或暴力图像，避免使用受版权保护的材料。但随着用户的增多和门槛的下降，一旦有人不了解并遵守开源社区的知识产权规范和协议，违规情况就难免发生。

    （DALL·E 2的内容政策）
    另外，法律空白与滞后，令原创者对维权感到无能为力。
    依靠开源社区的约束是很难避免AI滥用，那么能不能依靠数字作品的专项法规来保护原创者的知识产权呢？现状显然是令人失望的，立法作为一件非常严肃的事情，往往具有一定的滞后性。与飞速发展的AI技术相比，对于AI生成的作品是否具有知识产权／著作权，利用AI生成违规图像如何处理，相关法律法规在全球范围内都还在空白和讨论阶段，目前只有个案作为参考。2019年斯蒂芬·泰勒（Stephen Thaler）希望将他发明的DABUS人工智能系统命名为“发明者”，并获得相关发明专利，但在美国、英国、欧洲、澳大利亚、德国等地的法院都遭到了拒绝。目前看来，在全球范围内，知识产权制度更注重人类创造，使用AI并点击“go”并不被认为是创造性行为。比如深圳市南山法院就曾判定在一起案件中，AI辅助协作系统生成的文章，受到著作权法保护，擅自复制传播需要承担相应的民事责任。
    知识产权本身就存在的判定难、维权难的特点，而AI生成内容法律保护的“缺位”，更加剧了维权的难度，很难约束违规使用，这也使得人类原创画师面对AI绘画工具，其知识产权也处于“真空”地带。
    技术、文化、伦理与法律等各种因素交织在一起，构成了开篇中AI作画的种种争议和风波的缘起，这是一个环环相扣的故事。
    转与合：创作者的激变与新机
    那么，有争议是不是意味着AI作画就此停滞了呢？还真不是！
    事实上，经过频繁的讨论，大量原创画师对于AI绘画工具都有了一定的尝试和了解，从一些知名画师的反馈来看，对于AI作画这样的AIGC应用，普遍表现出了三种态度。
    1．AI想取代人类画师，还早。
    某博主测试过后发现，“搞出来的能看的图多少有一些，但符合描述意图的图基本可以说没有”；“AI画画其实在我这个修图师眼里其实跟ps里那个填充功能差不多”。原因在于，AIGC的内容质量还有提升的空间。一方面，AI大模型的自然语言理解能力与人类还有很大的差距，GPT－3所生成的文本也就相当于小学生水平，这种情况下要让AI绘图工具理解复杂的文本，并准确用图像表达出内容思想，还是有点困难的。另一方面，在商业上，艺术品市场推崇的都是极富独特性的作品，稀缺性一直是艺术品重要的定价标准，工业化、批量产出的东西对收藏家来说没有价值，随着AI绘画工具的开源，手工制作的独特产品或许才会成为人们追求的艺术。这种趋势其实已经出现了，有网友就认为未来约稿很可能“纯手工”“零AI”反而会成为卖点。

    一位创作博主直言：标榜自己的图是手工绘图的画师，今后想要过得富足，或许需要尽量为自己的作品附加额外的价值——这种生活方式早已有人在运营，那就是艺术家们。
    所以至少目前为止，AI绘画工具能提供很多帮助，但还是无法取代人类画师的。
    2．AI作画，确实有点用。
    需要注意的是，艺术创作、艺术品收藏是一种相对小众的活动，能够成为艺术家的是极少数极小众的一批人。不过，日常生产生活中存在大量视觉和设计工作。在这些领域中，AI已经能够扮演非常有用的“作图助理”角色，成为大势所趋。
    一种是减少重复性／风险性工作。比如视觉创意中，与客户沟通耗费大量时间和精力，存在大量不确定性，经常画完即使版后客户说“还是第一版好”，遇到这种让美工自闭的情况，AI就可以扮演起一个任劳任怨的乙方，快速生成多样化的AI创意图片，避免了过重的前期投入乃至返工。另外，每逢节日大促活动，美工难免就会遇到大量重复枯燥的工作，比如制作高度同质化的海报，也可以由高水准的AI能力来完成。因此有设计师将DALL·E命名为“傻逼甲方终结者”。
    另一种是AI作为辅助工具，提高设计师的工作效率。许多基于AI绘图工具都已经被开发为Figma、Photoshop、Blender等工具的插件，帮助创作者渲染细节、一键填色、提供灵感……而对于没有受过系统性绘画训练的普通人来说，艺术创作的门槛也大大降低了，有网友用Midjourney合成了去世祖母在花丛里的照片，有网友用它为自己写的同人小说制作插画，这些在大模型和AIGC出现之前，都只能委托给专业画家，历经漫长的等待来完成，而现在用AI绘图只需一键即可完成。
    普通人也能低成本甚至零成本地实现脑洞，AI大模型支撑下的创作自由才刚刚开始，因此也有创作者直言，“AI绘画是在造福人类”。

    3．AI知识产权保护，需要加速。
    对于创作者来说，AI绘画工具无疑是绝佳辅助，与此同时，避免AIGC的野蛮生长，因一些违规作画的操作而陷入争议和负面，也成为艺术界、AI界、法律界在一起共同讨论、加速立法的当务之急。
    目前来看，AI作画的知识产权争论焦点主要集中在三个方面：1．数据版权。AI模型训练对于样本数据的数量和覆盖广度有要求，如何确保数据版权的来源并予以保护；2．创作版权。数据只是侵权的第一步，“画风抄袭”是画师们非常苦恼的一种侵权，AI生成画作的元素、风格相似度要判定是否抄袭，比判定人类抄袭作品的难度更大；3．利益保护。目前大量AI绘画工具都提供付费服务，而一旦AI生成技术商用以后，作为数据源头或创作者的人如何获得合理回报和收益，目前也没有有效的解决方案和保护手段。所以DALL－E 2直接规定，其使用者无法出售用它创作的任何艺术品。但如果能有一种措施，准确判断贡献度并将收益分配给贡献者，比如联邦学习技术、区块链技术等的支持下，相信许多原创者也乐于参与到AIGC的产业化进程中。

    有了法律与技术的保障，AI作画才能在边界内加速人机合作，而非割裂与冲突。
    总而言之，现代文明的演进，是一个世界的祛魅过程。工业化的过程，就是用蒸汽机、电气化等科学技术的系统运用，去取代那些能工巧匠们的奥秘，而这个祛魅过程，也带来了生产的大批量、高效率和低成本，普罗大众的生活比传统时代的任何时候都要便利和富足。
    从这个意义来看，AIGC何尝不是一个艺术祛魅的过程。就像Midjourney主创所说：美丽的石头来自河流，但河流不是创作者。这套AI系统并无创造的能力，但美可以来自其中。（Every beautiful stone comes from the river， but is the river creative？ No， I don’t think so． Is the system creative？ No． Can beauty come out from it？ Yes．）
    没有什么能瓦解人的灵魂和创造力，就像摄影术不会瓦解梵高和莫奈。智能时代，拥抱AI已成定局，这个进程中，人如何寻找到人的价值与意义，将是我们每个人所共同面临的一个课题。