上不如老，下不如小，现在还不如AI？

2024.04.12 光锥智能

    文｜光锥智能，作者｜卢滢西，编辑｜周文斌
    写代码、修复BUG、编故事......
    这些看似只有人类才能完成的任务，都出自同一个聊天机器人之手。
    当地时间11月30日，OpenAI发布了一个全新的对话式大规模语言模型ChatGPT。作为GPT－3．5系列的主力模型之一，通过对话的形式，ChatGPT可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。
    这一模型在开放测试以后，迅速涌入了大批用户，并在社交媒体上晒出自己与ChatGPT的互动。有人用来给自己的猫写诗，有人用来给代码改BUG，还有人问它关于人类的意义......12月5日，OpenAI首席执行官Sam Altman发推表示，OpenAI 训练的大型语言模型ChatGPT于上周三推出，目前已突破100万用户。

甚至于马斯克也为其称赞“ChatGPT非常好。我们离强大到危险的AI不远了。”

    之所以ChatGPT能够引起如此大的反响，是因为这一次算法模型的升级让AI的认知智能更上一层台阶，换句话说，现阶段的AI能够对人类意图的理解更为深刻、准确。
    让AI更懂人、更像人，一直是技术不断在攻克的难题，而同样作为生成式AI（AIGC）中一员的AI绘画，也因为Diffusion扩散模型的加入，闯入了更多公众的视野。
    只需要输入几个关键词，就能获得一幅由AI生成的绘画。今年以来，AI绘画可谓是在社交媒体上赚足了眼球，从年初Disco Diffusion的流行，再到8月，由AI绘画程序Midjourney生成的《太空歌剧院》获奖，Stable Diffusion扩散模型的使用，让AI绘画在图像细节的处理上更为出色。
    如果将ChatGPT和Stable Diffusion模型两者进行“强强联合”，便能够让模型更懂创作者的需求。一方面，利用ChatGPT强大的语言理解能力生成文本描述，另一方面，扩散模型能够最大程度保持图像的细节，既保留了图像中的语义结构，又能够生成高质量的AI绘画作品，“甲方爸爸”看了都直呼满意。
    无论是ChatGPT还是Diffusion扩散模型，一个作为多轮对话模型，一个作为辅助多模态生成的模型，都让AI的能力从“机械执行”，进阶到“创造性”，这也意味着AIGC迎来了一个新的发展阶段。
    “我不如AI”，在多久后会成为现实？
    01 生成式AI到底有多牛？
    AI给你改BUG、编故事，是一种什么体验？
    “帮我以鲁迅的文笔写一段话，表达一下我现在因为疫情连门都不敢出的惨状，还有想吃火锅的心情”，有网友在ChatGPT中输入一段自己的需求。几秒钟后，ChatGPT就给出了一篇质量颇高的小作文。

    除了让它写小作文以外，它还拥有解决数学、逻辑和编程问题的能力，有网友直呼：妈妈以后再也不用担心我的作业不会做了！
    与此同时，ChatGPT还能根据用户提出的调整建议不停地对回答内容进行修改，同时也能对不恰当的假设和要求提出挑战和拒绝。
    一改AI智障的面孔，能让聊天机器人如此优秀，ChatGPT究竟有哪些创新？
    2020年，OpenAI推出自然语言模型GPT－3，这是ChatGPT的上上一代产品，其在总结和简化文本方面表现出强大的能力，甚至还在《卫报》上公开发表过专栏文章，一时间引起了不小的轰动。
    两年过去，就在众人对GPT－4翘首以盼的时候，OpenAI在今年年初出其不意地先推出了GPT－3．5，并训练了InstructGPT模型，能够帮助GPT－3输出的结果更为准确。
    而ChatGPT则是InstructGPT的兄弟模型，同属于GPT－3．5。虽然ChatGPT目前仍然处于测试阶段，并且还没有真正联网，但已经展现出了足够惊艳的性能。
    这次ChatGPT的走红，除了有社交媒体裂变优势的助力以外，很重要的一个原因还是其跟上一代的GPT－3相比，在生成内容的效果上有了两方面的显著提升：一是有记忆功能，可以实现连续对话；二是能够更好的理解和完成人类的指令。

在对于人类指令的理解和执行上，可以发现，ChatGPT生成的结果在尽可能地贴合人类的意图和期望，而GPT－3更像是设定好的套路模版。比如说同一个指令“写一首简短的关于青蛙的诗歌”，右边ChatGPT的可读性明显要更强。

    对比下来，GPT－3的局限性在于不擅长逻辑的推理和决策，而在ChatGPT中，结果的反馈也成为了学习过程的一部分，实现了在认知智能层面上的提升。这一次ChatGPT的推出，大概率也是为了能够收集更多的用户数据反馈，以饲养模型，让AI更懂人类。
    事实上，对于人类意图的理解一直都是AI难以横跨的一道坎。
    就拿同样火热的AI绘画为例，能够出圈的一大原因是因为生成的作品“翻车”太厉害。把宠物识别成人，把人物识别成建筑...画风开始偏离，诸如此类的乌龙开始频繁出现。

    图片来源于网络，如有版权问题请联系我们
    对于一些简单的人物和环境都无法准确识别、理解，更别提具有复杂意象的诗歌了。在某个AI绘画产品中，光锥智能输入“醉后不知天在水，满船清梦压星河”后，生成的结果也跟诗歌意境相差甚远。

    不难发现，在AI绘画爆火背后，大多数软件对于如何保证准确的语义理解和图片生成能力的敏感度并不算高。
    现阶段AI绘画的槽点虽然很多，但进步却是毋庸置疑的。据一位二次元画师透露，在今年年初的时候，圈子里的人对于AI绘画的印象还是“生成速度慢”“生成质量差”，但谁也没想到AI能够在短短几个月时间进步神速。特别是今年8月，AI绘画作品《太空歌剧院》的获奖，更是让大家炸开了锅，“从来没感觉到自己离失业那么近。”二次元画师小元（化名）说道。
    02 算法的迭代之路
    从“人工智障”到“人工智能”，背后是算法模型的几次大幅迭代。
    从最早基于手写规则的简单学习，到神经网络的诞生，AI开始像人脑一样学习，开始尝试大量数据。

    图片来自真格基金分享
    直到2017年，谷歌首次提出了Transform模型，取代了此前的CNN和RNN两种神经网络学习方式，这一模型的核心在于注意力机制，让AI在学习的过程中关注重点而非全部，大大降低了模型训练所需的时间。Transform模型问世以后，很长一段时间里都是机器翻译领域的主流模型。
    而将Transform模型拆开来看，可以分成编码器和解码器两个部分，编码器负责把自然语言序列转化成数学表达，而解码器则是负责把数学表达再转化为自然语言序列，即我们日常能够看得懂的语言。
    OpenAI的自然语言模型GPT就是属于后者。

    图片来自真格基金分享
    从2018年推出了GPT－1之后，该自然语言模型系列一共经历了3次迭代。相较于GPT－1，GPT－2并没有太多结构上创新，只是数据更多了，参数从原来1．17亿增加到了15亿。而在GPT－3上，OpenAI再一次加大了对于数据量的投入，训练参数直接达到了1750亿个，上千亿的参数和更类人的智能也让其成为了自然语言模型里程碑式的产物。
    到了今天的主角ChatGPT，再一次颠覆了“AI究竟能够多像人类”的认知。
    上文提到，ChatGPT现在更能理解人类的指令和意图，根本原因在于ChatGPT和InstructGPT都加入了“从人类反馈中强化学习”的训练方式。
    相比于原来训练标注师单纯输入固定的结果模版，这种训练方式加入了人类有可能对于结果的反馈，并将不同的结果进行排序，通过奖励模型让AI不断地在人类的反馈中迭代、调整，这样一来，提前让ChatGPT与有可能的反馈产生交互，使得最后生成更符合人类指令或者意图的答案。

    值得一提的是，虽然是兄弟模型，但InstructGPT无法判断人类下达的指令是否是不正当的，仍然存在一些“毒性”，而优化过后的ChatGPT则能够意识到这一点，敢于质疑不正确的前提。
    在算法模型的不断迭代下，加上数据量不断提升，“AI越来越聪明，也越来越努力。”
    同样，AI绘画能够在今年爆火，也是因为底层技术实现了重大突破。
    从识别用户输入的文字语义，再到生成一幅AI绘画作品，这其中的难点之一在于AI需要实现从文字到图像的跨模态生成。
    让我们先把时间拨回2014年。彼时，GAN对抗生成网络的提出标志着AI图像生成迈出了关键一步，但遗憾的是，GAN生成的结果可控性差、图像分辨率较低、不能实现文字和图像之间的跨模态生成。
    因此，CLIP模型出现了。2021年，OpenAI提出了基于NLP（自然语言理解）和CV（计算机视觉）的多模态预训练算法CLIP，可以将CLIP模型简单地理解为不同模态之间架起的一座桥梁。
    不过，真正引爆AI绘画的，还是Diffusion扩散模型的应用。
    扩散模型就是一种生成图像的方法，在正扩散过程中，给图像添加噪声，让图像变成了一堆随机的噪声，然后通过逆扩散给图像去噪，学习图像是如何生成的，相当于让AI换了一种学习画画的方式。
    伴随着今年Stability AI对扩散模型的改进之后，模型的计算降低了对算力的要求和对内存的消耗，从前动辄半天、一天的生成速度已经快进到秒级别，这也是为什么在Stable Diffusion开源以后，AI绘画能够迅速在C端走红的原因。
    目前的AIGC已经能够实现文字、图像、音频以及视频等多领域、跨模态的内容生成。
    招商证券认为，得益于深度学习模型的不断完善、开源模式的推动以及数字内容供给需求的不断增长，AIGC将会呈现指数级的发展增速。在技术加持下，一场AIGC的变革正在酝酿。
    03 寻找技术和商业化的交点
    生成式AI的进步不断地给人以惊喜，在应用层，应该如何寻找技术和商业化的交点？
    近日，ChatGPT的火爆之余，马斯克在推特上也对ChatGPT提出了关键性的问题：每次对话的平均费用是多少？
    而OpenAI首席执行官Sam Altman给出的回复是“每次对话的平均费用可能只有几美分”，正试图找出更精确的测量方法并压缩费用。

    类似于ChatGPT这样的对话式AI产品，最早出现在2016年。随着技术的发展，近些年来也被广泛运用在AI客服、虚拟数字人和电话营销等领域。不过，从效果上看，这些产品仍然不够智能，此前中国联通的AI客服冒充人工，还被用户识破发到网上调侃了一番。
    此次ChatGPT的出现，不仅仅带来了技术的关键性变革，也让对话式AI产品的商业化前景变得更加清晰。
    而相较于ChatGPT，AI绘画的商业化则走在更前面。
    量子位智库发布的报告认为，多模态能力的提升将成为AI真正实现认知智能和决策智能的关键转折点，在未来1－2年，“文字－图像”的生成将快速落地。
    从海外市场的情况来看，不仅有谷歌、Meta、微软等科技巨头跑步入场，随着Stable Diffusion的开源，一大批初创企业也如雨后春笋般涌现。
    再看国内的情况，百度较早地嗅到了AI绘画的机会，在今年8月就发布了基于其飞桨、文心大模型的AI绘画软件文心一格，而初创企业里，也有盗梦师、TIAMAT、达利AI、6pen等公司开始冒尖。
    现阶段AI绘画仍然处于大量投入的早期阶段，商业模式仍然在探索中。
    就拿这次在C端爆火的众多AI绘画软件来看，光锥智能了解到，意间AI绘画是积分制，初始积分是20，当积分消耗完毕后可以通过观看广告视频来继续获取积分；盗梦师、6pen以及百度的文心一格都是免费生成一定数量的作品之后，按量进行收费。
    总的来看，目前国内的AI绘画软件变现模式单一，且C端的用户大多数只是出于好奇心的尝试，愿意付费的仍是少数。根据6pen的调研，60％的用户从未在AI绘画产品上有过付费行为，剩下40％的用户中，付费超过100元占比仅10％。

    C端的付费意愿并不高，因此，诸如工业设计、游戏制作等B端场景或许会成为AI绘画未来的一个重要落地方向。
    值得注意的是，AI绘画如果真的在不久的将来实现大规模商业化落地，那么内容生产方式的变革也会进一步加速。
    光锥智能向盗梦师的To B产品负责人李庆功了解到，过去专业设计师大多使用的都是PS这类的工具，但目前盗梦师已经在尝试研发面向专业生产场景的AI生成工具，这种全新的创作交互方式不仅能够让AI来执行设计流程，甚至于连设计师的灵感都可以由AI来提供。
    这就意味着，跟原先被AI替代的单一、重复工种一样，AI绘画的出现也会替代掉一部分的工作。谁会成为下一个被替代的？
    04 结语
    当我们在谈论AI时，我们究竟是在谈论什么？
    从AI诞生之日起，它的任务就是要进一步解放生产力。顺着AI发展的脉络来看，通过不断模拟人脑的思考过程，AI逐渐具有了对数据和语言的理解、推理、解释、归纳、演绎的能力，越来越像一个人类。
    当然，目前的AI对于人脑的探索远远未触及核心情感层，但我们不得不承认，AI正在酝酿着一场生产力的变革，而这必然会引起新一轮人类价值的转移。
    回顾人类历史，每一次生产力变革的背后，技术都在不断地将人类从单一、繁重、重复的劳动中解放出来。从体力劳动开始，到脑力劳动，在这一过程当中，人类的劳动形式逐渐发生改变，并依次叠加。而伴随着AI往更高阶的智能进发的同时，另外一种劳动形式也顺势出现。
    借用知乎上一位答主的话，那就是想象力劳动。
    区别于脑力劳动，想象力劳动的核心在于灵感和创意的提供。
    上文提到，ChatGPT能够根据人类简短的指令生成代码、编写故事，AI绘画也能够识别关键词的语义进行创作，本质上AI正在承担并且有能力承担一部分的人类劳动。因此，人类已经无需去思考其中的过程，只需要给AI提出问题、把自己的灵感告诉AI即可。
    也正因为AI天然具有根据指令执行的机械思维，所以AI无法真正理解人的情感和多样性，即使AI可以替代程序员写代码、替代作家写故事，但是它所有的灵感来源依旧要从人类那里获得。
    根据传播学者梅尼赛的研究，技术进步之后，引发社会变革的途径之一就是创造新机会和产生新问题，前者引发产业结构和社会结构的变化，而后者推动新制度的转型。
    AI作为新一代科技革命技术，它的进步也在不断反推人类去思考，我们的新问题、新机会在哪儿。