重新理解「数据即石油」：隐私计算如何保障数据主权？

2024.09.28 链闻

    原文标题：《美国大选华裔候选人杨安泽说了，数据比石油更有价值，但如何实现它？》
    撰文：李画
    致谢：PlatON 创始人孙立林、安全多方计算研究者晟超
    连 2020 年美国总统大选华裔民主党候选人杨安泽（Andrew Yang）都说了，「数据比石油更有价值」，可见这一理念多么深入人心。

    不过，尽管「数据是数字时代的石油」、「应该把数据所有权握在自己手上」这些说法听上去很有吸引力，但其实很难说清楚我们该如何去实现它。
    《经纪学人》早在 2017 年就发表封面文章，称「数据将取代石油」成为当今时代最有价值的资源。但直到今天，拥有「数据石油」主权的普通人依然无法从这宝贵的资源中获得收益。
    相反，这些数据还给它们的拥有者带来了严重的隐私泄露的问题。
    为何美好愿景与现实情况间有着巨大差距？怎样才能实现数据所有权和数据价值？本文试着从已有的实践去探讨，希望能理清一些线索，对建立起关于该问题的思考框架贡献一点力量。

    我们不能出售数据
    相信我们每个人都有过接到推销电话的经历。绝大多数人的个人数据都被买卖过，最简单的比如电话号码和一些消费信息，这些数据此刻也许正在某个地方等着被再次出售。
    数据确实能卖出钱来，钱落入了那些获取了我们数据的机构的口袋。
    这个现象容易带来一个认识的误区，即认为我们可以通过出售数据来实现数据的价值，也就是说，在我们借助法律条文和技术手段拥有数据主权后，可以通过把这些数据卖给需要的人来获得数据价值，把「石油」卖成钱。
    但这是错误的，我们不能买卖数据。在阐述这个问题之前，我们有必要区分数据的所有权和数据的使用权。
    对于这个世界上绝大多数的资产，买卖行为意味着资产所有权的转让：一方得到所有权，另一方失去所有权。但买卖数据不会转让数据的所有权，你卖出了数据，但这些数据的所有权依然属于你。
    因此围绕数据的交易实际上是围绕数据使用权，而不是数据所有权的交易。但因为数据可以被无限复制，如果我们卖出了数据，就无法保证买方会如何使用以及是否会再次出售这些数据，更准确的说，在某种程度上我们已经「失去」了这些数据，哪怕我们拥有数据所有权。
    非法的数据交易会直接买卖数据，是因为他们不在乎数据所有人的权益，但当我们真实拥有了数据所有权后，为了实现数据价值，我们是不能买卖数据的。
    那么该如何交易数据的使用权但不失去数据？答案是不交易数据本身，只交易数据的计算结果。也就是说，买方可以利用这些数据进行计算，得到其需要的结果，但买方不能获取到原始数据本身。
    这是当我们讨论数据所有权和数据价值时，第一件、或许也是最重要需要理解的事情：我们不能通过出售数据实现数据价值，只能通过出售数据结果实现数据价值。
    也就是说，我们要把数据的所有权和使用权分离，只交易数据使用权。
    隐私计算不只是为用户隐私问题服务
    如何实现只出售数据结果？答案是：通过隐私计算。
    隐私计算是在不暴露原始数据的情况下计算数据，且计算结果可被验证。它包括全同态加密、安全多方计算等多个研究方向，有许多专业的技术文章介绍它们的工作原理，若你希望更进一步了解，可以去查看。
    在这里我们有第二个模糊地带需要澄清，即：隐私计算不只是为保护用户隐私服务，它更是实现数据使用权交易的基础，也就是实现数据价值的基础。
    之所以需要做这个澄清，是因为「隐私计算」容易被理解成又一种保护隐私的技术，重点被落在「隐私」上，但实际上「隐私计算」的重点是在「计算」上。
    在区块链行业中，由于隐私计算常常被作为一种增强用户隐私的方法用于密码货币交易中和区块链上，所以人们更容易把隐私计算理解为它是为实现用户隐私服务的，这一理解并没有错，但它把隐私计算局限到了一个小的领域。
    也许从另一个角度看待这个问题会更清晰。我们把数据问题拆分成用户隐私问题和数据价值问题。用户隐私问题解决的是与用户相关的原始数据不被泄露、用户的隐私不被暴露，我们可以把该问题看作一种特定范围内的数据隐私保护。
    在这个阶段中，隐私计算的角色是一种可供选择的保护隐私的方法。
    在用户得到了数据隐私后，如果他 / 企业选择把数据放在那儿什么都不做，故事就结束了；但如果用户 / 企业想更进一步，得到数据的价值，就要把数据拿出来使用，事情就进入到下一个阶段，此时需要通过各种方法来保证数据在被使用的整个生命周期内都不被泄露，我们可以把这看作一种全范围的数据隐私保护。
    在这个阶段中，隐私计算的角色不再是一种可供选择的方法，而是一条必经之路，因为实现数据价值的方法是在不暴露原始数据的情况下出售数据结果，进行数据使用权的交易，只有隐私计算能够达成这一目标。
    如果把数据比作石油，那么隐私计算就是炼油的第一道工序，它是我们在保证用户隐私前提下把「原油」转换成各种产品的基础。
    并非所有数据都具有相似的价值
    并非所有数据都具有相似的价值，也并非所有数据都能实现数据价值，这可能是我们在讨论数据价值时又一个需要明确的地方。
    只有当我们理解数据的复杂性和多样性后，才有可能针对不同的情况，在法律上和技术上使用不同的条款和方法来真正解决问题。
    本文将试着从应用角度出发对数据的类别进行一个简单的划分，再介绍该类数据的数据价值问题。此处提出的数据分类方法不一定全面和准确，它只是为建立起一个基本的可供讨论的框架服务。
    我们可以把数据分为三大类：

第一类是身份数据；
第二类是行为数据；
第三类是生产力价值数据。

    第一类身份数据在网络和现实世界中被用于注册和身份确定，比如身份证号码、电话号码、账户信息等等，这类信息对于非法产业有着最大的价值，一旦泄露也会给用户带来大的安全隐患。但对于正规数据产业，这类信息反而没有计算价值，它们计算不出有意义的结果。
    因此，这一类数据本身是不需要考虑如何通过隐私计算实现数据价值的。
    第二类是行为数据，它包括用户在网络上的浏览痕迹、消费数据，也包括用户的产品使用习惯数据等。可以通过计算这些数据对用户进行个人画像，再基于画像向用户推送广告、推送内容、提供服务，甚至推销观点。
    行为数据有两大类价值，一是广告价值，我们都知道几乎是广告养活着整个互联网产业；二是能够帮助产品了解用户，从而为用户提供更好的个性化服务。
    目前在世界范围内被广泛关注和讨论的数据所有权问题主要集中在这一类型的数据身上。很长时间以来该类数据的各种权限并不明确，人们也并未在意，直到这些数据的计算结果被越来越多的用于影响或者控制我们时，我们才认识到该问题的严峻性。
    这其中标志性的事件是 2018 年 Facebook 的数据门事件。在该事件中，一家名为剑桥分析的数据运营公司获取了超过 5000 万名 Facebook 用户的数据，通过数据计算，他们筛选出其中政治立场摇摆的对象并向其投放精准匹配的政治宣传广告，从而影响了美国的大选和英国的脱欧公投。

    好消息是，我们似乎正在拿回这一类数据的所有权。欧盟出台的《通用数据保护条例》（GDPR）规定，产生数据的个人是数据主体，他有权要求清除其个人数据，也有权反对并要求停止对其个人数据的处理。
    坏消息是，我们没有拿回数据的使用权，如前文所说，数据价值是建立在数据使用权交易的基础之上的，所以我们离用这类数据实现归属于用户的数据价值还很遥远。它的困难在于：
    一方面，即使被称为史上最严苛的数据保护条例，GDPR 也只是要求企业在使用数据前告知用户哪些数据被使用了，以及用这些数据做什么，也就是说，它只约束企业不滥用数据，但并不限制企业使用数据。
    另一方面，因为这类数据可被用于帮助产品了解用户，如果企业以提高用户体验为理由使用数据——它们现在就是这么做的——我们似乎难以拒绝。让用户牺牲用户体验去要求企业无权使用任何行为数据似乎很难，而希望企业主动把这类数据的两种用途区分开、让渡部分广告价值似乎更难。

    这是否意味着企业依然可以按照以前的数据处理方式行事？并不是。我们会发现上述数据所有权和使用权的分离仅仅是字面意义上的，企业虽说只拥有数据的使用权，但它们是「拿到」并使用原始数据本身的，这让数据依然存在被滥用以及安全方面的问题。
    而因为大众隐私意识的觉醒以及各国数据保护法（将安全职责放在使用数据的公司上）的出台，一旦出现问题，企业将可能面临用户的抵制以及巨额的罚款，因此我们可以看到 Google、苹果等公司如今都在隐私计算领域进行着大量的研究。
    以 Google 为例，它的「联邦学习 Federated Learning」是将机器学习模型集成到每一台设备上，在汇总用户参数发送给云端时，通过隐私保护地聚合算法和系统工程实现隐私计算。
    但需要再次指出的是，企业通过隐私计算实现数据所有权和使用权的分离，不是为了用户能够进行数据使用权的交易，它们更多的是希望降低数据使用风险、免受隐私泄漏指责，能够满足合规要求的继续免费使用用户的数据。
    因此，用户得到这类数据的数据价值是一件道路漫长的事情，其中最大的难点在于意识，只有当我们有强烈的数据所有权和使用权意识时，才可能推动政府出台更严格的数据保护条例，或者推动新的互联网架构颠覆如今中心化服务器的模式。
    「生产力价值数据」最具价值
    了解了「身份数据」和「行为数据」之后，接下来介绍第三类数据，在本文中我们称其为「生产力价值数据」。
    该类数据的一大用途是做机器学习，训练 AI；另一大用途是做数据分析，帮助进行科学研究、产品设计、决策制定等。这一类数据如果被恰当使用，能够驱动社会往更有效率、更为友好的方向发展，它们是一种生产力。
    第三类数据的采集范围最广，数据量最大。它可以来自于人类，比如个人的医疗数据和财务数据、个人的产品使用习惯数据等等；也可以来自于物联网设备，比如传感器收集到的大气情况数据、自动驾驶数据等等。
    它的一部分数据来源与第二类数据相同，都是使用互联网产品的用户，只不过采集到的数据的处理方式和用途不同：第二类数据是取之于用户、用之于用户，而第三类数据是被集合后跨数据主体使用。从数据本身的角度出发，我们可以认为某个数据既是第二类数据，也是第三类数据。
    第三类数据具有最大的数据价值，同时它们也有可能最先进入到数据使用权的交易市场，实现数据价值。
    不同于第二类数据是互联网企业自己拥有数据使用权同时自己使用数据，不需要进行数据交易，在生产力价值数据的应用场景中，出现了不拥有数据使用权但希望使用数据的角色。从这个角度，我们可以认为第三类数据是指所有可资产化的数据的集合。
    我们可以拿医疗数据为例来更好的理解如何使用第三类数据。科研机构或制药厂如果能有大量的医疗数据的支持，就能更好、更快的研究疾病和开发新药，但拥有数据资源的医疗机构因为用户隐私问题和自身利益，并不会把这些数据提供给其他机构使用。
    如果我们通过隐私计算分离数据的所有权和使用权，就能建立起一个数据使用权的交易市场，不同医疗机构、科研机构和制药厂的数据就可以在这个平台上实现连通——流行的说法是打破数据孤岛——这些机构间可以进行数据的买卖，也可以数据共享进行联合的疾病研究。
    如果我们要训练能够诊断疾病的 AI，也需要通过上述方式打破数据孤岛，这样才能提供给 AI 更多、更全面的数据。
    需要赘述的是，在现阶段，即使实现了数据的交易和价值，但因为数据使用权在法律上和使用上的边界都不明确，我们作为个体依然很难拿回全部的数据的价值。
    数据所有权和使用权是这个时代最重要的议题之一，《人类简史》的作者、历史学家尤瓦尔·赫拉利（Yuval Noah Harari）的观点是：「如果我们希望避免财富和权力都集中到一小群精英手中，关键在于规范数据的权限」。
    因为数据自身的复杂性和多样化，从边界清晰、可以被准确描述的细小处出发定义问题、解决问题，而不是寄希望于舆论、立法和技术能够整体解决问题，也许才是快速与有效的方法。我们可以对不同的数据类别进行更具体的分类和分析，或者用不同的分类标准探讨数据的分类，再基于此讨论数据的隐私、数据的所有权和数据的价值实现问题。
    重新理解「数据即石油」
    数据常被比作石油。
    虽然楔形文字中便有人类在死海沿岸采集天然石油的记录，但直到 1846 年亚布拉罕·季斯纳发明从煤中提取煤油的方法，1853 年伊格纳齐·武卡谢维奇和扬·策从原油中分馏出精炼的煤油，现代石油工业的历史才算真正开始。
    不过这仅仅是开始，作为煤油灯燃料的石油并不特别，只有在后来当它被用于内燃机后，才爆发出巨大的潜力，并成为世界上最重要的一种资源。
    数据与石油的相似之处在于，仅仅有数据还不够，只有实现了数据的「炼油术」，才有可能开启数据的产业时代。
    而数据与石油的不同之处在于，石油是先有炼油厂，然后才有内燃机的需求，而数据是已有巨大的使用需求，却没有成熟的技术和基础设施支持这种需求。
    这或许是一件好事。道路漫长，但我们知道方向。

参考资料：
1.《Federated Learning: Collaborative Machine Learning without Centralized Training Data》
2.《Helping organizations do more without collecting more data》