2022，谷歌、抖音和百度涌向AIGC

2024.04.29 雷科技

    就在本月，WSJ 引述知情人士称，作为 2022 年爆红的聊天机器人 ChatGPT 背后的公司，OpenAI 正在谈判以收购要约的形式出售现有股份，这起交易对 OpenAI 的估值达到 290 亿美元左右。在 2021 年的一场交易中，OpenAI 的估值还只是在 140 亿美元左右。
    估值高涨的背后不只是因为 ChatGPT，OpenAI 旗下另一个 AI 生成图像模型——DALL－E 2 同样展现了生成式 AI 的能力可以有多高。2022 年，从 Stable Diffusion 以开源形式引爆 AI 创作，到 GPTChat 一周内就突破了百万级用户注册，全球出现了无数生成式 AI 的产品和创业公司，文本、图像乃至视频，掀起了巨大的 AIGC（人工智能生成内容）浪潮。

    AI 绘画，图／抖音
    基于 Stable Diffusion 开源模型，字节也推出 2022 抖音年度爆款「AI 绘画」，统计显示有 2758．3 万人使用过这款特效。抖音和快手都看到了 AIGC 技术在图像应用上的巨大价值，快手对 AIGC 的布局也证实了这一点。快手在 11 月联合百度 AI 数字人希加加、度晓晓等发布短视频，进行 24 小时 AI 直播，还通过 AIGC 技术进行作画、写诗、写歌词等。
    6 月，一位谷歌高级软件工程师甚至声称，谷歌开发的对话式 AI LaMDA「有意识、有灵魂」，但随后很快被谷歌否认。而在一个月前，谷歌刚刚在 2022 年 I／O 大会上公布了 LaMDA2，称其为谷歌有史以来最先进的对话式 AI，与年底红遍全球的 ChatGPT 有着相同的语言模型技术和原生应用场景。
    12 月 16 日，知名学术期刊《科学》杂志公布了 2022 年十大科学突破，记录一年里最重大的科学发现、进展和趋势，其中一项就是「AI 具备创造力」。用我们更熟悉的词就是：AIGC，即基于 AI 能力的内容创作。
    当 AI 开始拥有大规模创造内容的能力，很多事情都可能被颠覆。
    AI作画开始大众化

    图／OpenAI
    2022 年 4 月，人工智能研究公司 OpenAI 发布了新版本的文本生成图像程序——DALL－E 2，随后一张由 DALL－E 2 生成的「宇航员在太空骑马」图片开始蹿红社交网络。
    相比前代，DALL－E 2 生成图像有了更高的分辨率和更低的延迟，同样基于用户描述文本进行生成。不过和之前 OpenAI 推出的产品一样，DALL－E 2 开始并不对外开放，仅限部分研究人员注册使用该程序，一直到 9 月才宣布向公众开放使用，每月仅限 15 个免费图像。
    这也为下半年 Stable Diffusion 的爆火和流行提供了机会。如果说上半年最火的「AI 画师」当属 DALL－E 2 和 Midjourney，8 月 22 日 Stable Diffusion 发布之后基本就成了「AI 画师」的代名词。
    在目前的三大 AI 图像模型中，Stable Diffusion 诞生得最晚，但由于发展良好的开源社区，它的用户关注度和使用范围都超越了 Midjourney 和 DALL－E。任何人都可以免费使用，任何公司也可以基于开源项目定制自己的 AI 生成图像程序。
    「我们已经看到 3 岁到 90 岁的人第一次开始创作。」StabilityAI CEO Emad Mostaque 在一次采访中说，该公司资助了 Stable Diffusion 的开发。在海外知名论坛 Reddit 的「StableDiffusion」板块下，每天都有用户分享通过 Stable Diffusion 生成新的图像作品。
    到现在「AI 画师」已经可以走入千家万户。用户可以在本地部署，普通消费级显卡就能满足硬件要求，也可以直接输入一串网址，直接输入描述文本开始创作，这是 2021 年 DALL－E 初代发布的时候不敢想的。
    不仅如此，「AI 画师」出现和流行也在 2022 年挑战人类的美术和图片产业。
    9 月，全球最大图库盖蒂图片社（Getty Images）宣布禁止上传和销售使用 DALL－E、Midjourney 和 Stable Diffusion 等 AI 艺术工具生成的插图。盖蒂认为 AI 产生的图片并非是一种人类创造性的艺术品。
    同月，游戏公司 CEO 兼游戏设计师 Jason Allen 通过 Midjourney 生成的《太空歌剧院》，在美国科罗拉多州博览会举办的艺术展中一举夺得数字艺术组大奖。
    但这次获奖也引起了广泛的争论，有人认为这对其他自己创作的人不公平，「这就跟为什么我们不让机器人参加奥运会的原因完全一样。」参加评审的艺术家杜兰（Cal Duran）甚至表示，他在评分的时候根本没意识到这幅画由 AI 生成。
    相比之下，百度更加务实，一开始就确定了自己「辅助」定位。8 月，百度基于自身的文心大模型也推出了AI 绘画平台「文心一格」，更明确定位为面向有设计需求和创意的人群，基于文心大模型智能生成多样化AI创意图片，辅助创作者的创意设计。
    在技术之外，AI 生成图像还在探索如何解决版权等一系列问题。
    用嘴做视频？还要再等等
    作为 AI 大厂，Meta 和谷歌实际上没有缺席任何一个重要的 AI 技术，在 AI 视频生成上更是独领风骚。
    Meta 在 9 月率先推出了 Make－A－Video，言简意赅地表达了它的作用：做视频。更具体地说，Make－A－Video 可以通过文本、图片或者视频来生成一个全新的视频内容，尤其是文本直接生成视频，直接让视频创作的门槛大大降低，比如输入「机器人在时代广场跳舞」：

    图／Meta
    仅仅一周后，Google 也发布了自己的 AI 视频扩散模型 Imagen Video。与 Make－A－Video 相比，Imagen Video 最直接的感受就是清晰度更高——画面分辨率可以达到 1280×768，帧率也能到 24 fps 了。
    不过，两者实际上都还存在画面不正常抖动、主体畸形、动作不够流畅等问题，而且与之前推出文本生成图像程序一样，谷歌和 Meta 都没有选择对外开放，这也是为什么相比 AI 画画的流行，AI 生成视频领域更多还是处在看热闹的阶段——就像 2021 年的 AI 生成图像。
    字节也看好 AI 视频模型的未来，在抖音内就支持了「图文成片」功能，输入一段文字，软件智能匹配图片素材、添加字幕、旁白和音乐，自动生成视频。从一些创作者的反馈来看，目前「图文成片」的实现还很初级，智能匹配和生成视频两个环节都很难真正在视频生产环节中使用。
    当下 AI 生成视频在技术上显然还不够成熟，但最近几年 AI 进化速度在肉眼可见地加快，很难想象今年 AI 视频模型又会发生什么样的质变。
    不管 AI 视频模型是否能在今年再度质变，就如百度移动生态负责人何俊杰在 9 月的 2022 百度万象大会上所说，「未来十年，AIGC 将颠覆现有内容生产模式，可以实现以十分之一的成本，以百倍千倍的生产速度，创造出有独特价值和独立视角的内容。」

    何俊杰，图／百度
    可以预期，AIGC 将是 UGC 用户生成内容出现之后，又一个内容生产的大变革，最直接的应用就是大大降低视频制作的成本和门槛，这也意味着为视频内容在供给侧的大爆发提供了技术基础。
    那场万象大会上，百度就推出了基于文心 AI 大模型的「创作者 AI 助理团」，由 AI 文案、AI 画师和 AI 视频制作人组成。理想状态下，借助「创作者 AI 助理团」，一个人就可以是一支视频团队。
    但显然，现实是 AI 视频生成还需要一些时间。
    ChatGPT，属于AI的「初代iPhone」
    12 月初，OpenAI 发布了 ChatGPT——一个对话式 AI，发布后很快就在小范围内流行起来，随后持续发酵并风靡全网。从敲代码、写稿、写诗、推荐到教你学英语、写小说，甚至是一场类似人类之间的对谈，ChatGPT 都表现出了惊人的语言对话能力。
    ChatGPT 甚至一度拉响了谷歌搜索的红色警报。

    用 ChatGPT 修 bug，图／＠amasad
    与 OpenAI 之前发布的产品不同，ChatGPT 选择面向公众大范围公测，短短 5 天，其用户注册量就突破了百万级，这在互联网增长集体放缓的 2022 年多少有些不可思议。即便到了岁末年初，很多用户依然在使用 ChatGPT 做报告、写年终总结等事务，可见其表现带来的用户粘性。
    ChatGPT 之所以脱颖而出，普遍认为很大程度上是因为它采用了很自然的措辞进行对话，有网友评价其使用体验「就像平常聊天」。而 ChatGPT 背后的核心之一是使用 GPT－3 的新版本 GPT－3．5 来进行对话，该版本拥有 1750 亿个模型参数。
    事实上，从 GPT－3 引发全球范围 AI 大模型的军备竞赛开始，这件事一定程度上就是巨头之间的比拼。谷歌在 2021 年推出了万亿级参数的 AI 大模型——Switch Transformer，微软和英伟达烧坏了 4480 块 GPU 后，才开发出 5300 亿参数的自然语言生成模型 MT－NLG（威震天－图灵）。

    「钱」，图／英伟达
    根据媒体报道，GPT－3 训练的仅是硬件和电力成本就高达 1200 万美元（约 7500 万人民币），GPT－3．5 应该只高不少。目前 ChatGPT 仍然是免费使用，但显然 OpenAI 不可能一直免费开放下去。
    另一个对话式 AI 的问题在于——自以为是。大量的用户对话已经证明，ChatGPT 的回答并不可靠，但它又经常以令人信服的方式「胡说八道」。OpenAI 也承认，尽管 ChatGPT 生成的回答从语气上已经非常逼近真人，但有时仍会给出完全错误的答案。
    这不是在否认 ChatGPT 带来的惊艳。Box CEO 亚伦·莱维认为，「当一种新技术已经到了改变你对计算机的看法时，你会有一种特定的感觉。谷歌做到了，火狐做到了，AWS（亚马逊）做到了，iPhone 做到了，OpenAI 正在通过 ChatGPT 做到这一点。」
    写在最后
    过去十年，可以说互联网和智能手机彻底改变了内容的分发和消费环节，但在内容生产领域本质上没有过多的变化。而在过去一年，AIGC 已经带来了太多的变化，Stable Diffusion、Imagen Video 和 ChatGPT 分别对应了最主要的内容形式——图像、视频和文本。
    当然，AIGC 还在面对很多挑战，包括版权、生成质量不稳定、创作主体争论等，甚至 AI 生成视频还没有经过大众使用验证。但现如今 AIGC 开始「飞入寻常百姓家」，已经具备了成为一项大众化技术的基础，未来很可能极大地提高内容的生产效率和丰富度。
    从《太空歌剧院》获得艺术大奖到今天，AI 的争论依然没有停止，但就如 Jason Allen 为自己的事件所做的总结：AI 作画程序已经诞生，人们能做的只有承认并接受这件事。
    题图来自 StabilityAI
    来源：雷科技
    本文图片来自：123RF 正版图库