数亿网民数据将被用来训练AI？谷歌新隐私政策引发争议！

2024.09.29

    彼之砒霜，我之蜜糖。
    从ChatGPT出现到目前为止，大大小小的大模型一只手已经数不过来了。不管这些模型参数规模大小，上察天文，下晓地理，总能找出来一个符合应用场景的。这样的“外挂”说成是解放生产力，也不算为过。
    但一家欢喜一家愁。在大模型一路狂奔的背后，那些支持他们训练的数据来源，也成了业内心头一直放不下的障碍。鉴于OpenAI、谷歌等一众巨头一直以来“白嫖”的优良传统，各个数据源头如Twitter、Reddit等知名社交平台和社区，都表示：想用我的数据可以，把钱拿来！

    这下AI巨头们反倒被数据源牵着鼻子走了，但是有人偏偏不信这个邪。
    近日，搜索引擎巨头谷歌宣布：以后只要是发布在网上的信息，谷歌都可以拿来训练AI！不管是语言模型，只要是和AI相关的服务，都在允许范围内。
    谷歌新政策一出，业内彻底炸开了锅！
    堂而皇之“侵犯隐私”，还能合规合法？
    AI训练“侵犯隐私”的舆论正闹得沸沸扬扬，谷歌却头铁得出台了新的隐私政策，想借此给自己套上免死金牌。
    近日，谷歌更新隐私政策，表示将利用网络公开数据训练旗下的AI模型。

    其中，谷歌在新隐私协议的“可公开获取的资源”中声明：“我们可能会收集公开的在线信息或来自其他公共来源的信息，帮助训练Google的AI模型。”该大模型将会为谷歌翻译、谷歌旗下聊天机器人产品“Bard”及Cloud AI等产品和功能提供支持。
    去年年底谷歌就更新了一版隐私政策。对比上一版，谷歌将“收集信息以帮助训练语言模型”的相关措辞更改为“训练人工智能模型”，并新增明确了自家AI产品对于数据的使用权利。
    这似乎意味着，谷歌在训练旗下聊天机器人及其他AI模型，或未来开发AI产品的过程中，有权使用人们在网上公开发布的任意内容，什么“版权”、隐私在该政策面前统统不存在了。
    经确认，7月5日，谷歌中文版隐私政策也已经进行同步更新。
    谷歌的这项政策没有针对谁，指的是在座的所有网民。只要你在网上发表了什么内容，谷歌都可以拿来训练AI。消息一出，网上瞬间炸开了锅。
    “版权已死” “隐私不在”等等悲观情绪不一而足，更有的直言“AI正在吞食一切”。

    但也有人认为，谷歌的此项举措并没有严格意义上的“违规违法”。有相关律师表示，“无论在我国还是域外，对公开数据的正常收集和使用，在一般情况下不算违法。”但是他还说，一旦个人通过邮件等方式明确拒绝了此项政策，那就另当别论了。
    其他法律人士表示，就目前可获得的信息而言，谷歌对收集与处理用户个人信息的范围和目的作出了详细说明，即使以欧盟GDPR项下更为严格的“告知－同意”规则为标准，谷歌的这一收集与处理行为至少在形式上具有合法性。
    只是在实际施行中涉及的行为是否合法，还需进一步确认。
    AI巨头们的“数据之战”
    单纯看谷歌的一系列操作，可能觉得有些无厘头。但有意思的是，就在谷歌更新隐私政策前不久，另外一个AI巨头就被起诉“侵犯隐私”。
    两名美国作家在旧金山联邦法院对OpenAI提起诉讼，声称 OpenAI 没有获得版权授权，就滥用他们的作品来训练人工智能。
    起诉书中显示，OpenAI 的训练数据超过 30 万本书，其中就包括本就饱受争议，版权归属不清晰的“影子图书馆”（大多是以侵犯版权的方式向公众免费提供书籍文献内容的线上网站）。
    此前OpenAI和微软还被16 位匿名人士要起诉，因为这两家公司没有经过他们的同意就泄露了他们的个人隐私，要求两家赔偿30亿美元。

    这么看来，谷歌此举反倒有一种“自保”的意图。
    而另一方面，则更加突出了AI大潮之下，数据的重要性。各家都在保卫和争夺“数据”中绞尽脑汁。
    Reddit采取的方式简单粗暴，就是提高API价格。Twitter则是限制数据的曝光，CEO马斯克近日宣布 Twitter 将“临时限制”用户每日阅读推文数量：未验证的账户每天只能看到 600 条推文，对于新的未验证账户，一天只能看到 300 条。经过验证的账户每天只能阅读 6000 条帖子。

当各家AI的发展进度逐渐持平以后，算力和参数都渐渐被弱化。接下来的竞争，就看谁能更快更多地获取到“高质量”数据了。