想“白嫖”?没门!问答网站向AI训练要钱
近日,全球最大的程序员问答网站StackOverflow宣布:计划在今年年中向 AI 算法开发人员收费。
问答网站向AI开发人员收费,这是怎么一回事??
最近“人工智能”这颗子弹飞了这么久,想必大家都知道了目前AI进化到这种程度,是需要海量的数据作为训练支撑的。
数据从哪里来?据《华盛顿邮报》的一项调查显示,训练的数据基本都是从网上直接抓取来的,而关于这些数据的实际来源,几乎没人过问。庞杂而巨量的数据被投喂给刚出生的AI baby,让他们快速地成长,直到他们“成年”可以投入使用。之后,AI公司会以各种名义让用户付费使用此类服务,就比如OpenAI推出的ChatGPT Plus订阅服务,微软提供的代码生成服务等等。
AI公司把钱赚到手,资金回笼以便更好地继续深入开发。用户掏了钱,可以使用更智能的AI服务。这看似是个正向的生态闭环,但是别忘了这里面还有一个角色:数据提供商。从头到尾都没人注意到他们的存在,也没人对他们说一句:您辛苦了!就更别提钱的事儿了,纯粹就是被“薅羊毛”的冤大头。
眼看着OpenAI这些公司声名鹊起、名利双收,这些数据提供方坐不住了。在StackOverflow发表意见之前,知名社区Reddit 首席执行官 Steve Huffman早就直接表示——他们的数据很重要,不能免费提供给AI训练使用。
StackOverflow 首席执行官 Prashanth Chandrasekar 表示认同和支持 Reddit 的做法,还说社区平台推动了大语言模型(LLM)的发展,所作出的贡献也必须得到补偿。该CEO甚至表示,现在这些AI模型的大肆运用,是在违反社区的知识共享许可。为此,他特地在社区博客po文,阐明「人工智能系统的核心是建立在丰富的人类知识和经验之上。他们通过数据训练来学习——例如开源代码和 Stack Overflow 问答。」这一核心观点。
“反攻倒算”的不止两家
除这两家以外,自打ChatGPT问世以来就急得“跳脚”的马斯克,也不会放过这个反将一军的机会。Twitter早在3月26日就宣布,旗下应用的API接口全部收费,并划分三种收费标准,让企业客户“按需购买”。
免费版:只有使用 Twitter 登录的访问权限,以及每月仅提供1,500个发帖请求。
基础版:每月100美元,可以获得50,000个发帖请求和10,000个阅读请求。
企业版:并没有列出具体的价格。但是承诺提供“满足您和您客户特定需求的商业级访问”以及“[来自]专门客户团队的托管服务。” 不过,据外媒 Platformer 此前报道,企业版每月的费用可能高达42,000美元
相信这也会给Reddit和StackOverflow的收费提供借鉴。
对于微软和OpenAI,马斯克不光是要招兵买马正面竞争,还要“旧账新算”、“刨根问底”,他认为ChatGPT的巨大成功,离不开Twitter提供的数据支持。但是现在微软宣布不再支持Twitter的广告服务之后,马斯克就用“非法训练AI”为借口,威胁微软要“起诉”。
起不起诉是一回事,恶心你是另一回事。
拒绝“白嫖”的背后
Stack Overflow 作为全球知名的编码论坛,为开发者提供协作与交流的环境,也是程序员讨论编码问题的主要聚集地。当前,市面上很多的 AIGC 都支持辅助编码、能够在理解用户提出的编码问题基础上提供生成式代码、甚至也可以捕捉 Bug 以及 Debug,而大模型之所以拥有这些能力,也有大量相关编码问题与数据集的支撑。
外界将StackOverflow向AI训练收费归结于社区流量下滑。网络分析公司 SimilarWeb 最新发布的一份数据指出,开发人员已经越来越多地选择从 AI 聊天机器人和 GitHub CoPilot,而非Stack Overflow 上获取建议。营销平台 Semrush 的流量监测工具也显示,近一年来,Stack Overflow 的访问量持续下滑。
然而事实是,自从2022年开始该社区的流量就处于下滑状态,GitHub CoPilot 自 2022 年 6 月起普遍可用。在 OpenAI 的 ChatGPT 流量成倍增长的同时,Stack Overflow 的访问量一直在稳步下降。与去年同期相比,自 2022 年 1 月以来, Stack Overflow (stackoverflow.com) 的流量平均每月下降 6%,3 月份下降了 13.9%。ChatGPT 在 11 月底推出,没有同比记录,但它的网站 (chat.openai.com) 已经在短时间内成为世界上最热门的数字资产之一,比微软的 Bing 搜索引擎的全球流量还大。它在 3 月份吸引了 16 亿人次访问,在 4 月上半月又吸引了 9.207 亿人次。GitHub 网站也出现了强劲增长,3 月份 github.com 的访问量同比增长 26.4% 至 5.24 亿次。
从访问数据和流量上看,Stack Overflow的关注度确实在逐步下降。但与ChatGPT不同的是Stack Overflow服务的人群更加垂直和专业,ChatGPT的热度高涨,是因为面向的是更广泛的受众。Stack Overflow的“失宠”,不全是因为ChatGPT的风头太盛。而Stack Overflow转为向AI训练收费,也并不全是认为LLMs分割了用户群体,只是想在这波大浪潮中分一杯羹。用Stack Overflow CEO Chandrasekar的话来说,潜在的额外收入对确保 Stack Overflow 能够不断吸引用户和维持高质量的信息至关重要。
现在,这些AI科技巨头们应该都知道,为什么“白嫖”是这个世界上最贵的东西了。因为你不知道什么时候,就会被反过来狠狠地“讹”上一把。