探索隐私计算的江湖：数据金矿的守护者与吹哨人

2024.04.11 IT创事记

    煤老板和IT精英相遇，两个人想比比谁更富有，但都不愿告诉对方自己真正拥有多少财富，也不想让第三方掌握原始信息。何解？
    以上是图灵奖得主姚期智院士提出的“百万富翁假设”的通俗版演绎，里面涉及大数据发展进程中的一个核心难题：如何厘清数据的所有权和使用权。在我们日常的应用场景中，数据的所有权和使用权经常是混合在一起的，难免会遭遇顾此失彼的窘境。想象一种神奇的分离术：煤老板和IT精英拥有自身财富数据的所有权，平台只能获得加密数据的使用权，而经过“黑盒”的转化，即可得出“谁更富有”的结论。这就是隐私计算的雏形，专业表述为“解决互不信任的参与方之间，在保护隐私信息以及没有可信第三方前提下的协同计算问题”。在数据大爆发的浪潮下，隐私计算的发展一日千里。4月18日在北京举办的腾讯大数据高峰论坛上，第四代数智融合计算平台“腾讯大数据－天工”横空出世，《腾讯隐私计算白皮书》也新鲜出炉（可以在微信公众号后台输入“隐私计算”下载这份白皮书）。行业龙头的重磅出击，标志着隐私计算在国内大数据领域已渐入佳境，实践模式和方法论体系日趋成型。
    失控的隐私与沉睡的金矿在隐私计算大行其道之前，国内大数据领域的局面是：海量数据洪水滔天，应用落地泥沙俱下。一方面，用户数据隐私泄露问题频繁发生。网红奶茶店无死角摄像头收集顾客人脸信息，线上交易平台几元钱就能买上千张人脸照片，如果身份信息也失守，用户很有可能成为诈骗、洗钱、涉黑等违法犯罪的牺牲品。另一方面，有效、合规的数据资源非常稀缺，合法的数据交易与深度的数据挖掘愈发困难。数据已被定性为土地、劳动力、资本、技术之外的第五大生产要素，也成为企业和平台最重要的核心资产。如果不能对数据进行充分的保护和合规的使用，就等于让一座价值连城的金矿彻底沉睡。先从法律上划定底线，也许是打破混沌格局的首要之策。
    我国不久前审议的《个人信息保护法草案》规定：侵害个人信息权益的违法行为，情节严重的没收违法所得，并处5000万元以下或上一年度营业额5％以下罚款——5％的额度甚至超过了有“最严数据保护”之称的欧盟GDPR。真正的长效解决方案，还得寄希望于隐私计算的持续推广。根据国际知名调研机构Gartner的分析和预测：隐私计算将成为2021年企业重点关注的9项技术之一；到2025年，将有50％的企业使用隐私计算挖掘数据价值。
    破解的路径与有益的探索在隐私计算的江湖上，主要有三大技术流派：一是以多方安全计算（MPC）为代表，采用密码学方案，以秘密分享（Secret Sharing）、不经意传输、混淆电路等专业技术实现通用性和性能提升。二是以可信执行环境（TEE）为主，构建硬件安全区域，数据仅在该区域内进行计算，在非严苛场景下可发挥重要价值。三是分布式机器学习技术和系统——联邦学习，其通过同态加密、差分隐私等方式提高数据协作过程中的安全性。三大流派交织演进，相互融合，再加上防篡改、可追溯的区块链技术加持，通用型隐私计算超级平台的诞生似乎并不遥远。
    时代的吹哨人与开矿的先行者在隐私计算平台的竞争中，“腾讯大数据－天工”无疑是其中的佼佼者。自2009年迄今，腾讯大数据平台历经四代更迭：第一代大数据平台依托Hadoop生态，围绕离线计算模式化构建出能够稳定支撑小时／天级别的计算任务数据处理平台；2012年前后，第二代大数据平台通过引入Spark、Storm等实时计算处理框架，让处理性能迈入毫秒级别；2015年，第三代大数据平台朝着机器学习方向发展，其自研机器学习框架Angel成为国内第一个从Linux基金会毕业的AI项目；从2020年开始着手规划的第四代数智融合计算平台“腾讯大数据－天工”，以“数据协同、技术互通、平台大脑”技术理念为基础，未来将在确保数据安全的前提下，推动万亿级数据分析逐步实现“自动驾驶”。
    腾讯数据平台部总经理蒋杰在2012年刚加盟腾讯时，曾对其负责的业务领域做了一番“摸底考察”。作为一位已跟数据打了十年交道、对技术趋势高度敏感的专家，他当时的结论是：“腾讯大数据团队可能落后领先水准三年左右”。如今站在聚光灯下，蒋杰显然有更多的底气。2020年，腾讯大数据团队凭借3072bit业界最高强度加密和TEE硬件双保险技术，获得了iDash 世界隐私计算大赛冠军。这颗皇冠上的明珠，凝结着几代工程师的心血。
    “腾讯大数据－天工”在隐私计算领域并非单点突破，而是整体推进。借助自研技术，从机器学习到大数据分析，第四代数智融合平台可以为各个应用场景提供全面保护，去中心化的架构则能避免隐私泄露风险。作为第四代数智融合计算平台的重要组成部分，腾讯Angel PowerFL安全联合计算平台也颇受瞩目。Angel PowerFL拥有全栈的联邦机器学习和深度学习功能，可以提供多种隐私保护机制，在不同的应用场景里为用户提供差异化的安全保护级别。
    在跨机构的隐私计算场景里，跨公网通信是隐私计算系统的瓶颈。为了解决这一问题，Angel PowerFL平台采用消息队列（MQ）作为通信通道，借助MQ模块的拥塞控制和消息持久化功能，可以进一步增强系统稳定性。在MQ的基础上，腾讯还采用了高效的消息压缩算法来减少通信开销，提高多方交互效率。作为腾讯云数据安全网络（DSN）底层引擎，Angel PowerFL堪称金融级安全强度的隐私计算平台，在智慧医疗、金融风控、数字政务、推荐广告等领域已赢得众多客户的认可——在腾讯大数据高峰论坛上，来自民生银行、中国电信、中国电力科学研究院等跨行业的生态伙伴齐聚一堂，即是明证。
    终极目标与未竟挑战在《腾讯隐私计算白皮书》的封面上，标题中的“数据向善”尤为抢眼。这是腾讯“科技向善”理念的延伸，也是隐私计算发展的终极目标。远大前程并非一蹴而就。数据合规是隐私计算一直致力于解决的行业痛点，从实际运作来看，还有不小的提升空间。例如，作为底层逻辑的用户授权同意机制，隐私计算的参与方不应以对外公开的是数据模型而非原始数据为由，规避协作环节的用户授权，在本地服务器中建模的行为，也需要进一步规范。化解数据安全的衍生风险亦无止境。以联邦学习为例：尽管其无需参与者直接共享原始数据，但模型更新仍然有可能泄露参与者训练数据的相关信息，攻击者可以采用推理判断具体的数据点或数据属性是否被用于训练，或采用逆向学习的方法还原原始数据。这就要求企业在模型、输入、训练数据、输出等维度建立更全面的隐私计算屏障。此外，隐私计算参与各方权利义务的边界尚待进一步明确。
    通常而言，隐私计算涉及的主体包括个人信息主体、数据持有方、计算方和结果方。目前各方之间的法律关系还有模糊地带，数据挖掘的商业行为务求谨慎，防止出现超常规的高风险作业。凡心两扇门，善恶一念间。技术本身是中性的，去中心化的平台对各方都是敞开的，隐私计算向善路径的铺就，离不开劣币惩戒机制的运行和良性生态的构建。阳光普照，雨露滋润，“天工”才能“开物”。