科普 | 隐私计算——开启数据价值新篇章
论道隐私计算
前言??
2021年的今天,相信大家对字节跳动这个名字不会陌生,作为目前全国数一数二的资讯类企业,它旗下的两个平台——「今日头条」和「抖音」,都是贯穿人们生活点点滴滴的 App 应用。
字节跳动作为近两年的新兴之秀,却有着直逼腾讯和阿里的势头,可以肯定的是,它的成功并非偶然,甚至可以略带溢美之词地说,是字节跳动定义了现代化移动资讯、信息流以及短视频……
在这个数据为王的时代,人们一方面受益于平台算法,在日常浏览中得以阅读自己喜欢的内容;但另一方面,人们又时刻害怕自己的隐私在这个数字时代扮演着皇帝的新装。?直到2020年11月底,字节跳动打响了标杆性的一枪,率先宣布不再为广告主的任何品牌投放提供回传受众的设备 ID(Device ID)服务,广告主和媒体平台两者之间的友好合作就此作古。
由两个数据关系主体的角度进行分析,一方面广告主自此无法通过广告投放获取用户数据,无法定向追踪目标群体;而另一方面,媒体平台拒绝数据回传则构建出了相对封闭的「数据围墙」。如此,二者均无法通过合作得到相应的商业利益,导致了如今「伤敌一千,自损八百」的局面。
不过,媒体平台不可能不清楚这一点。?就在字节跳动公开消息后不久,其他媒体平台明面上云淡风轻,背地里却暗潮涌动。相信在字节跳动的带头作用下,其他媒体平台会陆续效仿,不再为广告主提供任何数据回传,毕竟数据的核心不仅仅在于经济利益,更关乎用户的隐私,抑或是未来的法律。
在数据隐私保卫之战不断升级的背景下,如何解决数据收集者、使用者和所有者三者之间的矛盾??就目前发展现状和趋势看,隐私计算技术或能成为解决这一问题的关键。
何为隐私计算??
隐私在大数据时代中的表现即为数据,凡是所有者不愿意被披露的敏感信息或是数据所能推导出的特征都属于隐私的范畴。?一方面国家在大力提倡建设数字经济社会,鼓励数据开放共享、互联互通;另一方面,在用户隐私意识觉醒的今天,人们对于隐私保护的强烈需求掀起了下一波技术浪潮,而隐私计算便是这波技术浪潮带来的产物。?
近两年隐私计算由小众到广为人知,商业与资本的加持可谓是功不可没,近几年出台的法律法规文件同样起到了正向催化剂的作用。?
「隐私计算」一词最早于2016年发布的《隐私计算研究范畴及发展趋势》中正式提出。?在2021年6月10日,第十三届全国人民代表大会常务委员会第二十九次会议通过《中华人民共和国数据安全法》,这项举措不仅填补了数据安全这一方面的法律空白,更是催生出无数团队进入这一赛道,也极大地推动了隐私计算行业的规范和快速发展。?
不过,法律法规始终难以从整体上对隐私计算技术进行合法性判断,只能说隐私计算是当下针对数据管理和应用的新方案。?
先来看官方的定义:?“隐私计算是指面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。”?
用通俗的话来解释,隐私计算是指通过算法系统和技术,贯穿数据产生、存储、应用、计算、销毁的全过程,使数据在此过程中「可用却不可见」,既保护了数据提供者的隐私,又有效地解决了数据流通、应用问题,这样就能在合法合规的范围内对数据进行更深层次的价值挖掘。
提到隐私计算,大家都会联想到最经典的“百万富翁”难题:?“从前有两个富翁在街上相遇,他们都想知道两人中谁更富有,但又不愿意让对方知道自己真正拥有多少财富。那么如何在没有第三方参与的情况下,知道谁更有钱?”?
这项难题的解决方案就运用了隐私计算技术。两个富翁分别将自己的财产数进行同一个计算,最终只需要公开计算结果,就能知道究竟谁更富有一些。?
以上的例子就体现出了隐私计算中数据「可用却不可见」的含义所在——其中「可用」是指两个富翁提供了资产数参与计算过程,最终得到了数据结果;而「不可见」是指资产数只有自己了解,并没有透露给第三方,哪怕是得到了计算结果也无法倒推出资产数额为多少。
隐私计算技术体系
“百万富翁”难题,是1982年由华裔计算机科学家、图灵奖获得者姚期智教授提出的。而这个经典问题的解决办法是安全多方计算,也是现目前主流隐私计算技术之一,另外比较著名的两类分别是基于现代密码的联邦学习和基于硬件的可信执行环境。?我们分别来解释:?
安全多方计算(Secure Multi-Party Computation)是电子选举、门限签名以及电子拍卖等诸多应用得以实施的密码学基础,主要是针对一组互不信任的参与方之间保护隐私的协同计算问题,为数据需求方提供不泄露原始数据前提下的多方协同计算能力。
在整个计算协议执行过程中,用户对个人数据始终拥有控制权,只会公开计算逻辑。计算参与方只需参与计算协议,无需依赖第三方就能完成数据计算,并且参与各方拿到计算结果后也无法反推出原始数据。?
联邦学习(Federated machine learning/Federated Learning)是一个机器学习框架,其主要解决的是在一个分布式的环境下,参与方持有各自的数据,如何打破数据孤岛、充分运用起所有参与方数据进行模型训练,又能满足各参与方的隐私保护诉求的问题。?
联邦学习要求该模型建立形式应当无限接近传统模式,即将多个数据拥有方的数据汇聚到一处进行建模的结果。在联邦机制下,各参与者的身份和地位相同,可建立共享数据策略。由于数据不发生转移,因此不会泄露参与方隐私或影响数据规范。?
可信执行环境(Trusted Execution Environment,后文简称TEE)是 CPU 中的一个特殊区域,该区域与其他区域严格隔离,避免了存储在内部的数据遭受黑客攻击或者影响到内部安全执行的环境。
例如,用户的身份、密钥和证书等数据需要高度保护,TEE 依靠软硬件实现数据加密,访问数据只能由TEE授权的可信应用访问或修改。同时还可利用 TEE 中存储的密钥对普通执行环境下用户数据进行加密,保证存储在普通执行环境中数据的安全性。?
综上,数据本身作为数字经济时代下重要的生产要素,只有在不断的产生、流动、共享、计算中才能发挥更好的价值,而隐私计算打破了现有数据价值流通的顾虑,通过技术实现了数据孤岛的连通,既能保证数据安全,又能应用数据进行运算,使其更好地服务于数字经济发展。
开启数据价值新篇章??
随着字节跳动率先打响标杆性的一枪,人们开始重新思考数据安全与数据使用之间的关系,作为开启数据价值新篇章的关键突破口,隐私计算技术的未来发展前景非常广阔。
现目前,无论阿里、腾讯、字节跳动等大厂还是初创型的科技公司,都纷纷开始发力、入局隐私计算赛道抢跑占位。而头部互联网公司凭借自身实力和规模效益加快研发,也在积极推动隐私计算相关产品的落地。
我们不能否认,作为新兴事物之一的隐私计算,同样会面临一些问题:?
1.隐私计算难以实现多方平等参与,计算过程和结果缺乏可验证性。
为解决这点,隐私计算正尝试着与区块链结合,构建一整套完整的解决方案。借助了区块链去中心化、不可篡改、公开透明的特点,实现了多方参与,并且隐私计算的过程数据和关键计算环节等可以上链存证,增强了隐私计算结果的可验证性、可审计性。
2.隐私计算如何保证数据的安全?
隐私计算技术初衷是为保证数据安全,所以技术本身的安全性是重中之重。另外,隐私计算需进行大规模的数据计算,因此计算效率、性能同样不可忽视。为解决这点,需要软硬件协同优化提升技术可用性,在算法不断优化的基础上,一些专用芯片和组件的使用将进一步提升隐私计算的性能。?
我们可以肯定的是,数字产业的发展和隐私计算行业的发展是相辅相成的。?
大数据时代下,单个数据的价值微乎其微,只有大量数据互联互通,在保证数据安全的前提下计算才能挖掘出真正的价值,再落地到具体应用场景。而在这整个价值挖掘过程中,高投入的创造性劳动便是数字产业发展的关键环节。?
我们期待着更丰富的数据价值实现的那天,但我们更加期待用户数据安全得以实现的那天,到那时,数据价值才能真正称得上是翻开了崭新的篇章。?
后记??
数据作为21世纪如「石油」般珍贵的资源,人们对待数据就像是在勘探开发石油的过程中注重环境保护一样,既然想要挖掘更多的数据价值,那么保护数据安全自然也是重中之重的东西。
目前,隐私计算行业仍处于最初期的阶段,未来的潜力不可估量,甚至远超我们想象。
而在数据安全、基础建设等方面,隐私计算仍须面对诸多难题和挑战,未来想要获得长足发展,首先是要提高隐私计算技术的可用性和兼容性。
对此,有不少人的焦点都放在了区块链和隐私计算的结合中,秉承着「开放」、「透明」、「共享」理念的区块链技术诚然为我们提供了一个崭新而又有效的思路,而落到实处的发展进程值得我们长期关注。
感谢各位读到这里。
相对来说,本文理解起来需要花些时间,但作为了解我们后续内容的核心前提,我们尽量做到通俗、客观的表达。
2021年的今天,相信大家对字节跳动这个名字不会陌生,作为目前全国数一数二的资讯类企业,它旗下的两个平台——「今日头条」和「抖音」,都是贯穿人们生活点点滴滴的 App 应用。
字节跳动作为近两年的新兴之秀,却有着直逼腾讯和阿里的势头,可以肯定的是,它的成功并非偶然,甚至可以略带溢美之词地说,是字节跳动定义了现代化移动资讯、信息流以及短视频……
在这个数据为王的时代,人们一方面受益于平台算法,在日常浏览中得以阅读自己喜欢的内容;但另一方面,人们又时刻害怕自己的隐私在这个数字时代扮演着皇帝的新装。?直到2020年11月底,字节跳动打响了标杆性的一枪,率先宣布不再为广告主的任何品牌投放提供回传受众的设备 ID(Device ID)服务,广告主和媒体平台两者之间的友好合作就此作古。
由两个数据关系主体的角度进行分析,一方面广告主自此无法通过广告投放获取用户数据,无法定向追踪目标群体;而另一方面,媒体平台拒绝数据回传则构建出了相对封闭的「数据围墙」。如此,二者均无法通过合作得到相应的商业利益,导致了如今「伤敌一千,自损八百」的局面。
不过,媒体平台不可能不清楚这一点。?就在字节跳动公开消息后不久,其他媒体平台明面上云淡风轻,背地里却暗潮涌动。相信在字节跳动的带头作用下,其他媒体平台会陆续效仿,不再为广告主提供任何数据回传,毕竟数据的核心不仅仅在于经济利益,更关乎用户的隐私,抑或是未来的法律。
在数据隐私保卫之战不断升级的背景下,如何解决数据收集者、使用者和所有者三者之间的矛盾??就目前发展现状和趋势看,隐私计算技术或能成为解决这一问题的关键。
何为隐私计算??
- 行业背景
隐私在大数据时代中的表现即为数据,凡是所有者不愿意被披露的敏感信息或是数据所能推导出的特征都属于隐私的范畴。?一方面国家在大力提倡建设数字经济社会,鼓励数据开放共享、互联互通;另一方面,在用户隐私意识觉醒的今天,人们对于隐私保护的强烈需求掀起了下一波技术浪潮,而隐私计算便是这波技术浪潮带来的产物。?
近两年隐私计算由小众到广为人知,商业与资本的加持可谓是功不可没,近几年出台的法律法规文件同样起到了正向催化剂的作用。?
「隐私计算」一词最早于2016年发布的《隐私计算研究范畴及发展趋势》中正式提出。?在2021年6月10日,第十三届全国人民代表大会常务委员会第二十九次会议通过《中华人民共和国数据安全法》,这项举措不仅填补了数据安全这一方面的法律空白,更是催生出无数团队进入这一赛道,也极大地推动了隐私计算行业的规范和快速发展。?
不过,法律法规始终难以从整体上对隐私计算技术进行合法性判断,只能说隐私计算是当下针对数据管理和应用的新方案。?
- 基本概念
先来看官方的定义:?“隐私计算是指面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。”?
用通俗的话来解释,隐私计算是指通过算法系统和技术,贯穿数据产生、存储、应用、计算、销毁的全过程,使数据在此过程中「可用却不可见」,既保护了数据提供者的隐私,又有效地解决了数据流通、应用问题,这样就能在合法合规的范围内对数据进行更深层次的价值挖掘。
提到隐私计算,大家都会联想到最经典的“百万富翁”难题:?“从前有两个富翁在街上相遇,他们都想知道两人中谁更富有,但又不愿意让对方知道自己真正拥有多少财富。那么如何在没有第三方参与的情况下,知道谁更有钱?”?
这项难题的解决方案就运用了隐私计算技术。两个富翁分别将自己的财产数进行同一个计算,最终只需要公开计算结果,就能知道究竟谁更富有一些。?
以上的例子就体现出了隐私计算中数据「可用却不可见」的含义所在——其中「可用」是指两个富翁提供了资产数参与计算过程,最终得到了数据结果;而「不可见」是指资产数只有自己了解,并没有透露给第三方,哪怕是得到了计算结果也无法倒推出资产数额为多少。
隐私计算技术体系
“百万富翁”难题,是1982年由华裔计算机科学家、图灵奖获得者姚期智教授提出的。而这个经典问题的解决办法是安全多方计算,也是现目前主流隐私计算技术之一,另外比较著名的两类分别是基于现代密码的联邦学习和基于硬件的可信执行环境。?我们分别来解释:?
- 安全多方计算
安全多方计算(Secure Multi-Party Computation)是电子选举、门限签名以及电子拍卖等诸多应用得以实施的密码学基础,主要是针对一组互不信任的参与方之间保护隐私的协同计算问题,为数据需求方提供不泄露原始数据前提下的多方协同计算能力。
在整个计算协议执行过程中,用户对个人数据始终拥有控制权,只会公开计算逻辑。计算参与方只需参与计算协议,无需依赖第三方就能完成数据计算,并且参与各方拿到计算结果后也无法反推出原始数据。?
- 联邦学习
联邦学习(Federated machine learning/Federated Learning)是一个机器学习框架,其主要解决的是在一个分布式的环境下,参与方持有各自的数据,如何打破数据孤岛、充分运用起所有参与方数据进行模型训练,又能满足各参与方的隐私保护诉求的问题。?
联邦学习要求该模型建立形式应当无限接近传统模式,即将多个数据拥有方的数据汇聚到一处进行建模的结果。在联邦机制下,各参与者的身份和地位相同,可建立共享数据策略。由于数据不发生转移,因此不会泄露参与方隐私或影响数据规范。?
- 可信执行环境
可信执行环境(Trusted Execution Environment,后文简称TEE)是 CPU 中的一个特殊区域,该区域与其他区域严格隔离,避免了存储在内部的数据遭受黑客攻击或者影响到内部安全执行的环境。
例如,用户的身份、密钥和证书等数据需要高度保护,TEE 依靠软硬件实现数据加密,访问数据只能由TEE授权的可信应用访问或修改。同时还可利用 TEE 中存储的密钥对普通执行环境下用户数据进行加密,保证存储在普通执行环境中数据的安全性。?
综上,数据本身作为数字经济时代下重要的生产要素,只有在不断的产生、流动、共享、计算中才能发挥更好的价值,而隐私计算打破了现有数据价值流通的顾虑,通过技术实现了数据孤岛的连通,既能保证数据安全,又能应用数据进行运算,使其更好地服务于数字经济发展。
开启数据价值新篇章??
随着字节跳动率先打响标杆性的一枪,人们开始重新思考数据安全与数据使用之间的关系,作为开启数据价值新篇章的关键突破口,隐私计算技术的未来发展前景非常广阔。
现目前,无论阿里、腾讯、字节跳动等大厂还是初创型的科技公司,都纷纷开始发力、入局隐私计算赛道抢跑占位。而头部互联网公司凭借自身实力和规模效益加快研发,也在积极推动隐私计算相关产品的落地。
我们不能否认,作为新兴事物之一的隐私计算,同样会面临一些问题:?
1.隐私计算难以实现多方平等参与,计算过程和结果缺乏可验证性。
为解决这点,隐私计算正尝试着与区块链结合,构建一整套完整的解决方案。借助了区块链去中心化、不可篡改、公开透明的特点,实现了多方参与,并且隐私计算的过程数据和关键计算环节等可以上链存证,增强了隐私计算结果的可验证性、可审计性。
2.隐私计算如何保证数据的安全?
隐私计算技术初衷是为保证数据安全,所以技术本身的安全性是重中之重。另外,隐私计算需进行大规模的数据计算,因此计算效率、性能同样不可忽视。为解决这点,需要软硬件协同优化提升技术可用性,在算法不断优化的基础上,一些专用芯片和组件的使用将进一步提升隐私计算的性能。?
我们可以肯定的是,数字产业的发展和隐私计算行业的发展是相辅相成的。?
大数据时代下,单个数据的价值微乎其微,只有大量数据互联互通,在保证数据安全的前提下计算才能挖掘出真正的价值,再落地到具体应用场景。而在这整个价值挖掘过程中,高投入的创造性劳动便是数字产业发展的关键环节。?
我们期待着更丰富的数据价值实现的那天,但我们更加期待用户数据安全得以实现的那天,到那时,数据价值才能真正称得上是翻开了崭新的篇章。?
后记??
数据作为21世纪如「石油」般珍贵的资源,人们对待数据就像是在勘探开发石油的过程中注重环境保护一样,既然想要挖掘更多的数据价值,那么保护数据安全自然也是重中之重的东西。
目前,隐私计算行业仍处于最初期的阶段,未来的潜力不可估量,甚至远超我们想象。
而在数据安全、基础建设等方面,隐私计算仍须面对诸多难题和挑战,未来想要获得长足发展,首先是要提高隐私计算技术的可用性和兼容性。
对此,有不少人的焦点都放在了区块链和隐私计算的结合中,秉承着「开放」、「透明」、「共享」理念的区块链技术诚然为我们提供了一个崭新而又有效的思路,而落到实处的发展进程值得我们长期关注。
感谢各位读到这里。
相对来说,本文理解起来需要花些时间,但作为了解我们后续内容的核心前提,我们尽量做到通俗、客观的表达。