探索隐私计算的江湖:数据金矿的守护者与吹哨人
煤老板和IT精英相遇,两个人想比比谁更富有,但都不愿告诉对方自己真正拥有多少财富,也不想让第三方掌握原始信息。何解?
以上是图灵奖得主姚期智院士提出的“百万富翁假设”的通俗版演绎,里面涉及大数据发展进程中的一个核心难题:如何厘清数据的所有权和使用权。在我们日常的应用场景中,数据的所有权和使用权经常是混合在一起的,难免会遭遇顾此失彼的窘境。想象一种神奇的分离术:煤老板和IT精英拥有自身财富数据的所有权,平台只能获得加密数据的使用权,而经过“黑盒”的转化,即可得出“谁更富有”的结论。这就是隐私计算的雏形,专业表述为“解决互不信任的参与方之间,在保护隐私信息以及没有可信第三方前提下的协同计算问题”。在数据大爆发的浪潮下,隐私计算的发展一日千里。4月18日在北京举办的腾讯大数据高峰论坛上,第四代数智融合计算平台“腾讯大数据-天工”横空出世,《腾讯隐私计算白皮书》也新鲜出炉(可以在微信公众号后台输入“隐私计算”下载这份白皮书)。行业龙头的重磅出击,标志着隐私计算在国内大数据领域已渐入佳境,实践模式和方法论体系日趋成型。
失控的隐私与沉睡的金矿在隐私计算大行其道之前,国内大数据领域的局面是:海量数据洪水滔天,应用落地泥沙俱下。一方面,用户数据隐私泄露问题频繁发生。网红奶茶店无死角摄像头收集顾客人脸信息,线上交易平台几元钱就能买上千张人脸照片,如果身份信息也失守,用户很有可能成为诈骗、洗钱、涉黑等违法犯罪的牺牲品。另一方面,有效、合规的数据资源非常稀缺,合法的数据交易与深度的数据挖掘愈发困难。数据已被定性为土地、劳动力、资本、技术之外的第五大生产要素,也成为企业和平台最重要的核心资产。如果不能对数据进行充分的保护和合规的使用,就等于让一座价值连城的金矿彻底沉睡。先从法律上划定底线,也许是打破混沌格局的首要之策。
我国不久前审议的《个人信息保护法草案》规定:侵害个人信息权益的违法行为,情节严重的没收违法所得,并处5000万元以下或上一年度营业额5%以下罚款——5%的额度甚至超过了有“最严数据保护”之称的欧盟GDPR。真正的长效解决方案,还得寄希望于隐私计算的持续推广。根据国际知名调研机构Gartner的分析和预测:隐私计算将成为2021年企业重点关注的9项技术之一;到2025年,将有50%的企业使用隐私计算挖掘数据价值。
破解的路径与有益的探索在隐私计算的江湖上,主要有三大技术流派:一是以多方安全计算(MPC)为代表,采用密码学方案,以秘密分享(Secret Sharing)、不经意传输、混淆电路等专业技术实现通用性和性能提升。二是以可信执行环境(TEE)为主,构建硬件安全区域,数据仅在该区域内进行计算,在非严苛场景下可发挥重要价值。三是分布式机器学习技术和系统——联邦学习,其通过同态加密、差分隐私等方式提高数据协作过程中的安全性。三大流派交织演进,相互融合,再加上防篡改、可追溯的区块链技术加持,通用型隐私计算超级平台的诞生似乎并不遥远。
时代的吹哨人与开矿的先行者在隐私计算平台的竞争中,“腾讯大数据-天工”无疑是其中的佼佼者。自2009年迄今,腾讯大数据平台历经四代更迭:第一代大数据平台依托Hadoop生态,围绕离线计算模式化构建出能够稳定支撑小时/天级别的计算任务数据处理平台;2012年前后,第二代大数据平台通过引入Spark、Storm等实时计算处理框架,让处理性能迈入毫秒级别;2015年,第三代大数据平台朝着机器学习方向发展,其自研机器学习框架Angel成为国内第一个从Linux基金会毕业的AI项目;从2020年开始着手规划的第四代数智融合计算平台“腾讯大数据-天工”,以“数据协同、技术互通、平台大脑”技术理念为基础,未来将在确保数据安全的前提下,推动万亿级数据分析逐步实现“自动驾驶”。
腾讯数据平台部总经理蒋杰在2012年刚加盟腾讯时,曾对其负责的业务领域做了一番“摸底考察”。作为一位已跟数据打了十年交道、对技术趋势高度敏感的专家,他当时的结论是:“腾讯大数据团队可能落后领先水准三年左右”。如今站在聚光灯下,蒋杰显然有更多的底气。2020年,腾讯大数据团队凭借3072bit业界最高强度加密和TEE硬件双保险技术,获得了iDash 世界隐私计算大赛冠军。这颗皇冠上的明珠,凝结着几代工程师的心血。
“腾讯大数据-天工”在隐私计算领域并非单点突破,而是整体推进。借助自研技术,从机器学习到大数据分析,第四代数智融合平台可以为各个应用场景提供全面保护,去中心化的架构则能避免隐私泄露风险。作为第四代数智融合计算平台的重要组成部分,腾讯Angel PowerFL安全联合计算平台也颇受瞩目。Angel PowerFL拥有全栈的联邦机器学习和深度学习功能,可以提供多种隐私保护机制,在不同的应用场景里为用户提供差异化的安全保护级别。
在跨机构的隐私计算场景里,跨公网通信是隐私计算系统的瓶颈。为了解决这一问题,Angel PowerFL平台采用消息队列(MQ)作为通信通道,借助MQ模块的拥塞控制和消息持久化功能,可以进一步增强系统稳定性。在MQ的基础上,腾讯还采用了高效的消息压缩算法来减少通信开销,提高多方交互效率。作为腾讯云数据安全网络(DSN)底层引擎,Angel PowerFL堪称金融级安全强度的隐私计算平台,在智慧医疗、金融风控、数字政务、推荐广告等领域已赢得众多客户的认可——在腾讯大数据高峰论坛上,来自民生银行、中国电信、中国电力科学研究院等跨行业的生态伙伴齐聚一堂,即是明证。
终极目标与未竟挑战在《腾讯隐私计算白皮书》的封面上,标题中的“数据向善”尤为抢眼。这是腾讯“科技向善”理念的延伸,也是隐私计算发展的终极目标。远大前程并非一蹴而就。数据合规是隐私计算一直致力于解决的行业痛点,从实际运作来看,还有不小的提升空间。例如,作为底层逻辑的用户授权同意机制,隐私计算的参与方不应以对外公开的是数据模型而非原始数据为由,规避协作环节的用户授权,在本地服务器中建模的行为,也需要进一步规范。化解数据安全的衍生风险亦无止境。以联邦学习为例:尽管其无需参与者直接共享原始数据,但模型更新仍然有可能泄露参与者训练数据的相关信息,攻击者可以采用推理判断具体的数据点或数据属性是否被用于训练,或采用逆向学习的方法还原原始数据。这就要求企业在模型、输入、训练数据、输出等维度建立更全面的隐私计算屏障。此外,隐私计算参与各方权利义务的边界尚待进一步明确。
通常而言,隐私计算涉及的主体包括个人信息主体、数据持有方、计算方和结果方。目前各方之间的法律关系还有模糊地带,数据挖掘的商业行为务求谨慎,防止出现超常规的高风险作业。凡心两扇门,善恶一念间。技术本身是中性的,去中心化的平台对各方都是敞开的,隐私计算向善路径的铺就,离不开劣币惩戒机制的运行和良性生态的构建。阳光普照,雨露滋润,“天工”才能“开物”。