一文看懂隐私计算与区块链的CP故事

2024.08.20 算力智库

    算力说
    滴滴事件让数据安全和隐私保护问题站在了焦点C位，伴随数安法的出台和监管趋严，企业开始惶惶自查，在数据隐私红线和数据价值挖掘的尺度上，该如何寻求平衡？隐私计算或成为当下的“唯一解”，但靠单一技术远无法满足当前和未来复杂的数据治理需求，而区块链因其共享账本、智能合约、共识机制等技术特性被寄予厚望，正成为隐私计算产品化的必选项，那么“隐私计算+区块链”二者合体究竟会发挥出怎样的CP效用？
    从本期开始，算力智库隐私计算专栏推出「隐私计算与区块链的CP故事」文章系列，从隐私计算的各环节拆解，看区块链如何“对症下药”，为隐私计算赋能，首篇由联通数科数据智能事业部区块链高级专家孙林博士所撰，欢迎阅读！
    隐私计算是个非常有前景的领域，发展迅速且商业前景广阔。信息技术研究和顾问公司Gartner认为，到2025年至少有一半的大型企业机构使用隐私计算，以在不受信任的环境和多方数据分析用例中处理数据，巨大的市场潜力正在酝酿。
    隐私计算满足了数据资产化的两个基本要求，即，一、原始数据不可被除拥有者之外的第三方获得，确保了拥有者对数据资产的所有权和安全性；
    二、数据的使用可度量，确保了数据资产价值的收益可控。随着国家数据安全法的落实，隐私计算将成为数据价值流通共享的主流技术形式。

隐私计算落地实践并非易事
    可以说，隐私计算的时代已经到来，而眼下正是黎明时分。当前，隐私计算在各行各业都在打造标杆示范。由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)共同组织评选的2020大数据“星河（Galaxy）”案例中，评选了2020年度隐私计算的标杆案例（https://mp.weixin.qq.com/s/UYGZ7M-tK1lY2N8YyZdvcA），金融业（中国工商银行、上海浦东发展银行、浙江网商银行、蚂蚁集团），运营商（联通大数据有限公司）、传统互联网巨头如腾讯百度及新锐创业公司都在隐私计算方面进行了布局，在金融、医疗、生物信息、精准营销、AI隐私保护等方面都开展了实践验证。
    当前的隐私计算实践以场景方和数据源两方之间的数据协同计算为主。在落地的实践中仍然面临诸多质疑。
    一、是隐私计算技术目前还没有足够的标准化和产品化，实施成本较贵，所以只有大型企业愿意投资做这个技术尝试，限制了隐私计算的规模性发展。
    二、是当前数字化转型中的企业的数据使用能力还较弱，通过隐私计算进行模型化分析，往往得到的是一个分数之类的结果，使用者难以像明文数据一样理解和使用数据，数据的使用价值体现还不够直观。
    三、本质上讲，隐私计算是技术手段而非核心驱动力。现在很多的新锐隐私计算公司往往是拿着锤子找钉子，研发了隐私计算的技术工具，却苦于找不到落地的场景。有业内大咖类比自己的工作为利用像面粉、鸡蛋这样原始数据材料去加工出各式的面包出来。听起来非常的美好，但如果没有落地场景的打磨，他们只能算是做出了一个烤箱，但烤面包的技艺是要经过多次尝试迭代才能做好的。也就是是说，场景的需求和应用迭代是技术发展的核心驱动力。

区块链来赋能，构建多方间隐私计算框架
    区块链与隐私计算从形式上是相似的。它们都是多方间实现协同计算的一种形式。参与方之间都是对等的，不需要有隶属关系。多方间遵循一个统一的协议来实现协同计算的过程，以得到一个计算的结果（区块链是账本，隐私计算是最终的结果）。
    区块链与隐私计算的结合，主要体现在市场化的多参与方数据共享共治机制上。这个共治机制要解决如下问题：
    参与方的可信问题，确保参与方是真实可信的，不是假冒的。
    数据资产治理问题，数据资产需要标准化，才能成为商品。在数据治理的过程中，它需要遵循一定的公共准则。
    参与方数据资产注册问题，这个过程相当于商品的上架，让潜在的合作方可以看到数据资产的元数据（即数据资产必要的描述信息）以及使用方式，比如数据资产有哪些字段，每个字段是什么属性，有什么统计特性，样例模拟数据等，以及数据资产可能的使用方式等信息。
    算法的可信问题，数据处理的过程要对数据源是可见的，谨防使用方在结果中夹带隐私数据。常用的算法要有开源的代码及代码管理。
    计算的授权问题，参与方提供的数据资源如果是涉及第三方的隐私数据，则必须要获得用户的授权才可以进行计算过程。这些授权需要留证，以便在计算过程中进行核验和事后的审计。
    计算过程的协调问题，传统的隐私计算过程，比如联邦学习，需要一个中心化的协调方来汇总各参与方的梯度信息，然后把结果再反馈给各参与方。这个中心协调节点就成了权利的中心，也有可能通过各方汇总的数据进行原始数据反推从而泄漏信息。同时，计算过程的发起到全流程追踪可回溯也是必须的。
    区块链通过去中心化的治理结构和智能合约的灵活支持，为解决如上问题提供了解决方案，分别如下：
    分布式数字身份
    数据要素互通，需要两套账户体系，一套是参与方的身份体系，一套是数据主体的身份体系。前者主要是确认参与方的真实世界的主体，而后者主要用于用户数据确权和授权。分布式数字身份可以同时满足两者的需求。
    传统互联网应用的数字身份往往用户名密码为主，并通过手机号以及身份证核验完成实名认证。用户的数字身份通常从属于应用，如社交、电商等领域分别采用不同账号，这不仅造成用户要重复注册很多的账号密码，更严重的是这些账号并不互通，造成了用户数据难以实现互通。
    传统的PKI系统（Public Key Infrastructure：公钥基础设施），由相对权威的CA机构给用户签发数字证书。这套体系实施的成本较高，仅由网银等重要的应用在使用。一方面，CA机构签发证书的成本较高，互联网公司在海量用户的情况下，所带来的成本累加起来是高昂的；另一方面，用户登陆应用所使用的环境可能是复杂多变的，证书会给使用的便捷性造成影响。同时，中心化的CA机构也可能存在性能的问题，切单中心机构易成为攻击目标，一旦上级CA机构被攻破，其下级CA亦会受到影响。
    分布式数字身份由W3C（World Wide Web Consortium：万维网联盟）提出，它改变了由厂商控制用户身份的模式，改为由用户控制和管理数字身份，通过讲数据所有权归还用户从根本上解决了隐私问题。它有如下这些特征。
    它的底层是用一个多中心化的架构来实现。每个中心都可以提供开放式的接入和服务能力，避免了传统CA机构单点失效的问题，增强了系统的可靠性。极端来讲，如果传统的CA机构倒闭了，它的证书服务就失效了。而多中心的架构中，单一机构的失效只要切换到其他机构即可，不会造成服务的中断。
    用户的身份由用户自己掌握。这点具体体现，用户自己生成<公钥、私钥>对，而非由传统CA机构进行签发。用户自己妥善保存好私钥，比如用钱包，即可实现对自己身份的安全管理。任何第三方只要拿不到私钥，就不可能发生冒用的行为。
    用户的身份必须得到社会认可。比如，新的用户可以由老用户来证明其身份，学校可以签发文件来证明其教育经历，公司可以签发文件来证明其工作关系。正式这些相互之间的关系，交叉验证确认了用户的真实身份，体现了用户的不同属性。
    分布式数字身份的典型模型如下图所示。凭证的持有者即用户，由三方的凭证发行者（如公安局、学校、培训机构、公司等）给其签发可验证凭证，比如身份证明，教育经历证明，工作证明等。这些证明注册在位于区块链上的可验证数据注册表中。当用户需要出示这些证明时，凭证的接受者，也就是验证者，可以从区块链上验证该凭证的真实性。

    图：分布式数字身份典型模型
    共识的数据结构
    由于缺乏行业公认的数据库表设计规则，多家公司对于同一个对象的数据结构设计往往是不同的。比如手机号码，可以写为"mobile"，"mobile_phone"，"mobile_No"等。对计算机而言，这就是不同的字段，如果没有语义上的理解和归一，这些字符对计算机而言是完全不同的。
    数据的互联互通，需要各参与方对数据结构的描述达成共识，用统一的规则设计数据结构，并用统一的字段定义。这相当于为IT系统制定了统一的语言，陌生的IT系统在对接的时候，统一的语言会大大降低数据互通的难度。这就好比两个陌生人要见面交流，如果一个讲中文，一个讲英语，中间翻译就是一个很大的工作量。中文和英文还是良好设计且广为使用的语言规范，翻译的过程虽然有一定的代价，但还是可以实现的。而一个设计较差的系统就好比说的是火星文。地球人跟一个不知道哪来的火星人交流，可能压根无法互通。所以这种共识是非常重要的。
    同时，这种共识也会减轻企业在IT系统设计时的负担和成本。一个原因，一个良好设计的数据结构共识，一定是经过诸多项目的广泛实践检验的。其中的缺陷经过多轮次的迭代，大多已经修复。产品设计人员直接在共识的基础上进行系统设计，将会少走很多弯路。另一个原因，用的企业多了，一些相应的工具、框架、可复用的代码就会诞生，也减轻了程序开发人员的工作量。
    然而，这个共识的达成是非常困难的。传统的IT设计行为并没有考虑数据结构在跨企业数据互通情况下的可复用性，因为数据互联互通的需求现在还是萌芽状态，还没有发展成为一种巨大的需求，以至于让数据结构互认成为一个痛点。然而，数据互联互通是在IT系统普遍应用下的才会诞生的需求。这产生了一个时间错差，设计系统的时候人们不会考虑互联互通，当需要考虑互联互通的时候，人们发现既有的IT系统因为设计的缺陷导致难以互通。
    更糟糕的是，这种定义到字段的细粒度的行业设计规范并不存在。整个市场上缺乏一种号召力，能够让所有的企业来遵循同样的系统设计行为。更没有IT的手段能够检测和监督这种规范的执行。且没有外部的约束力能够限制企业内部的IT设计行为。
    要实现这种共识，需要企业在设计IT系统的时候，能够遵循一个得到公众认可的且细化到字段定义的数据结构设计规范。
    数据资产凭证
    参与方要贡献数据出来，需要向整个市场证明其拥有某些数据资源。这里面涉及两个问题。
    数据资产的ID标识，这个标识向全网证明了唯一的数据资产ID。这个可以利用分布式数字身份DID来实现。
    数据资产的内容存证。数据资产的从诞生，到修改，到注销的全生命周期链上存证，确保数据资产可溯源，可以跟踪最新的状态。
    当然，区块链能解决隐私计算的问题不止于此，在数据资产注册、数据算法注册、计算授权、计算过程协调、计算过程存证、数据用途可控可计量等环节，区块链同样可以派上用场，下期我们将继续揭示「隐私计算与区块链的CP故事」，敬请期待！