数亿网民数据将被用来训练AI?谷歌新隐私政策引发争议!
彼之砒霜,我之蜜糖。
从ChatGPT出现到目前为止,大大小小的大模型一只手已经数不过来了。不管这些模型参数规模大小,上察天文,下晓地理,总能找出来一个符合应用场景的。这样的“外挂”说成是解放生产力,也不算为过。
但一家欢喜一家愁。在大模型一路狂奔的背后,那些支持他们训练的数据来源,也成了业内心头一直放不下的障碍。鉴于OpenAI、谷歌等一众巨头一直以来“白嫖”的优良传统,各个数据源头如Twitter、Reddit等知名社交平台和社区,都表示:想用我的数据可以,把钱拿来!
这下AI巨头们反倒被数据源牵着鼻子走了,但是有人偏偏不信这个邪。
近日,搜索引擎巨头谷歌宣布:以后只要是发布在网上的信息,谷歌都可以拿来训练AI!不管是语言模型,只要是和AI相关的服务,都在允许范围内。
谷歌新政策一出,业内彻底炸开了锅!
堂而皇之“侵犯隐私”,还能合规合法?
AI训练“侵犯隐私”的舆论正闹得沸沸扬扬,谷歌却头铁得出台了新的隐私政策,想借此给自己套上免死金牌。
近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型。
其中,谷歌在新隐私协议的“可公开获取的资源”中声明:“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的AI模型。”该大模型将会为谷歌翻译、谷歌旗下聊天机器人产品“Bard”及Cloud AI等产品和功能提供支持。
去年年底谷歌就更新了一版隐私政策。对比上一版,谷歌将“收集信息以帮助训练语言模型”的相关措辞更改为“训练人工智能模型”,并新增明确了自家AI产品对于数据的使用权利。
这似乎意味着,谷歌在训练旗下聊天机器人及其他AI模型,或未来开发AI产品的过程中,有权使用人们在网上公开发布的任意内容,什么“版权”、隐私在该政策面前统统不存在了。
经确认,7月5日,谷歌中文版隐私政策也已经进行同步更新。
谷歌的这项政策没有针对谁,指的是在座的所有网民。只要你在网上发表了什么内容,谷歌都可以拿来训练AI。消息一出,网上瞬间炸开了锅。
“版权已死” “隐私不在”等等悲观情绪不一而足,更有的直言“AI正在吞食一切”。
但也有人认为,谷歌的此项举措并没有严格意义上的“违规违法”。有相关律师表示,“无论在我国还是域外,对公开数据的正常收集和使用,在一般情况下不算违法。”但是他还说,一旦个人通过邮件等方式明确拒绝了此项政策,那就另当别论了。
其他法律人士表示,就目前可获得的信息而言,谷歌对收集与处理用户个人信息的范围和目的作出了详细说明,即使以欧盟GDPR项下更为严格的“告知-同意”规则为标准,谷歌的这一收集与处理行为至少在形式上具有合法性。
只是在实际施行中涉及的行为是否合法,还需进一步确认。
AI巨头们的“数据之战”
单纯看谷歌的一系列操作,可能觉得有些无厘头。但有意思的是,就在谷歌更新隐私政策前不久,另外一个AI巨头就被起诉“侵犯隐私”。
两名美国作家在旧金山联邦法院对OpenAI提起诉讼,声称 OpenAI 没有获得版权授权,就滥用他们的作品来训练人工智能。
起诉书中显示,OpenAI 的训练数据超过 30 万本书,其中就包括本就饱受争议,版权归属不清晰的“影子图书馆”(大多是以侵犯版权的方式向公众免费提供书籍文献内容的线上网站)。
此前OpenAI和微软还被16 位匿名人士要起诉,因为这两家公司没有经过他们的同意就泄露了他们的个人隐私,要求两家赔偿30亿美元。
这么看来,谷歌此举反倒有一种“自保”的意图。
而另一方面,则更加突出了AI大潮之下,数据的重要性。各家都在保卫和争夺“数据”中绞尽脑汁。
Reddit采取的方式简单粗暴,就是提高API价格。Twitter则是限制数据的曝光,CEO马斯克近日宣布 Twitter 将“临时限制”用户每日阅读推文数量:未验证的账户每天只能看到 600 条推文,对于新的未验证账户,一天只能看到 300 条。经过验证的账户每天只能阅读 6000 条帖子。
当各家AI的发展进度逐渐持平以后,算力和参数都渐渐被弱化。接下来的竞争,就看谁能更快更多地获取到“高质量”数据了。