科普 | 叮！多方隐私集合求交发来“会议邀请”

2024.06.27 趣链科技

    前言
    之前我们介绍过两方的「隐私集合求交算法」，可以应用到计算广告的实际效果，寻找联系人，联邦学习的特征对齐等场景，例如：在新的APP上找到共同的微信好友、开会时找到所有参会者共同的空闲时间等，但是这协议是针对两方设计的，没办法安全的扩展到多方。
    举个例子：现在有一个会议的发起者，他想要知道自己和其他所有参会者共同的空闲时间来确定会议的时间，一种简单的方案就是会议发起者依次和每一个参会者执行两方的隐私集合求交算法获取到每个参会者和自己的共同空闲时间，再从这些共同时间中筛选出所有参会者都空闲的时间。
    但是这种方案有一个很明显的数据安全问题，会议发起者和某一个参会者有两个共同的空闲时间，本周一上午和本周二上午，但是其他所有参会者本周一上午是空闲时间但是本周二上午不是空闲的，这就导致了参会者额外的信息被会议发起者知道了，会议发起者本应该只得到本周一上午这一共同的空闲时间的信息。
    本文主要介绍一种简洁高效的「多方隐私集合求交协议」，该协议是针对多方隐私集合求交场景设计的，解决了上述基于两方协议简单扩展到多方时产生的数据安全问题。该协议在CCS '21的[1]-Simple, Fast Malicious Multiparty Private Set Intersection中提出，适用于半诚实无参与方勾结的场景。
    相关技术
    该协议主要使用不经意键值存储技术和两方隐私集合求交算法进行构建：
    ▲不经意键值存储
    不经意键值存储（OKVS-oblivious key-value store）是指能够在隐藏key和value内容的前提下保留key-vakue映射关系的一种数据结构。有一组键值对{(x1,y_1), (x2,y2), (x3,y3)}，那么存在一个OKVS函数f，使得f(x1)=y1, f(x2)=y2, f(x3)=y3, 并且对于其他的键f(x_other)为随机数。
    ▲两方隐私集合求交
    两方隐私集合求交是指在不暴露双方集合交集之外数据的前提下获取交集部分的数据，常用的协议有基于ECDH的，基于OT的和基于同态的，本文介绍的多方隐私集合求交协议对于采用的两方协议不做限制。在前文《悄悄地找到共同点-隐私交集》中已介绍过一种实现方案，故本文中就不再详细讲解。
    简单示例
    现有A、B、C、D、E五方分别拥有数据集{1,2}、{1,2}、{1,3}、{1,3}、{1,4}，他们想要安全的获取他们所有人的共同交集{1}。
    所有方在进行求交之前已经协商好了共有的伪随机函数g(k,x)，简单实现就是hash函数，k是加的盐用于和x拼接后再hash。

A方随机生成两个伪随机函数的key：k_B和k_C，分别发送给B、C两方；
A方计算自己的键值对：{ (1, g(k_B, 1)⊕g(k_C, 1)) , (2, g(k_B, 2)⊕g(k_C, 2))}，并基于此键值对生成OKVS函数fA，并将fA发送给E方；
B方计算自己的键值对：{ (1, g(k_B, 1)) , (2, g(k_B, 2))}，并基于此键值对生成OKVS函数fB，并将fB发送给D方；
C方计算自己的键值对：{ (1, g(k_C, 1)) , (3, g(k_C, 3))}，并基于此键值对生成OKVS函数fC，并将fC发送给D方；
D方收到B方和C方的OKVS函数后，使用本方的数据集通过收到两个OKVS函数计算出新的集合{fB(1)⊕fC(1), fB(3)⊕fC(3)}，将构成OKVS的键值对带入进去后，就等价于{g(k_B, 1)⊕g(k_C, 1), random_number1⊕g(k_C, 3)}；
E方收到A方的OKVS函数后，使用本方的数据集通过收到OKVS函数计算出新的集合{fA(1), fA(4)}，将构成OKVS的键值对带入进去后，就等价于{g(k_B, 1)⊕g(k_C, 1), random_number2}；
D方和E方再使用两方隐私集合求交算法求出新集合{g(k_B, 1)⊕g(k_C, 1), random_number1⊕g(k_C, 3)}和{g(k_B, 1)⊕g(k_C, 1), random_number2}的交集{g(k_B, 1)⊕g(k_C, 1)}，对应位置原来的数据集{1}就是所有方集合的交集。

    上述流程的一个核心思路就是：前三方通过OKVS函数将自己的数据集隐藏起来，分别发送给后两方，由后两方的数据集通过OKVS函数计算出映射后的数据集之后再执行隐私求交，通过OKVS函数的性质可以保证后两方的数据如果分别是前三方的集合的交集，那么映射出的数据是一致的，如果不是就变成随机数了，对映射后的数据集再求次交集就能获得所有方的交集。
    具体流程

    协议的设计思路是将多方求交最终转化为两方求交，其他方通过OKVS的Encode方法和所拥有的伪随机函数的key来保护自己的数据集。
    OKVS的Encode方法用于将一组键值对生成上述的OKVS函数f，Decode方法即是对一个键key计算出映射的f(key)
    存在p1,...,pn n个参与方，分别拥有数据集a1,...,an，都拥有一个共同的OKVS方案和伪随机函数F(k,x)。
    「具体流程」
    1. p1随机生成n-2个随机数k2,...,k(n-2)，然后将ki发送给pi。
    2. p1将自己的数据集元素a1j作为key，计算F(k2,a1j)⊕F(k3,a1j)⊕...⊕F(k(n-2),a1j)作为对应的value使用OKVS进行编码生成Sn发送给pn。
    3. 对于所有的pi(2<=i<=n-2)分别将自己的数据集元素aij作为key，计算F(ki,aij)作为对应的value使用OKVS进行编码生成Si发送给p(n-1)。
    4. p(n-1)依次将自己的数据集a(n-1)的每个元素分别作为key在收到的Si(2<=i<=n-2)上进行解码，并将所有解码出的数据进行异或作为集合A(n-1)中的一个元素。
    5. pn依次将自己的数据集an的每个元素分别作为key在收到的Sn上进行解码后的数据作为集合An中的一个元素。
    6. p(n-1)和pn对集合A(n-1)和An执行两方隐私集合求交，获取出的交集元素对应序号的原数据集生成时使用的a(n-1)或an中的元素即是所有方集合交集中的一个元素。
    正确性分析
    该协议将n个参与方分成了两组，参与方1和参与方n是一组，参与方2到参与方n-2和参与方n-1是一组。
    先看第一组的逻辑，p1将自己的数据集通过OKVS编码后发送给pn，pn将自己的数据集通过p1的OKVS结构解码一遍生成新的数据集An，按照OKVS的性质：如果pn的集合元素是p1集合中元素，即是这一组的集合交集元素，则对应到An中的元素就是F(k2,a1j)⊕F(k3,a1j)⊕...⊕F(k(n-2),a1j)（a1j是p1和pn集合交集元素）；如果pn的集合元素不是这一组的集合交集元素，则解码后的数据就是随机数。
    再看第二组的逻辑，参与方2到参与方n-2也同样使用OKVS编码自己的数据集再发送给p(n-1)，p(n-1)将自己的数据集按照上面流程4的方式通过解码所有收到的OKVS结构再异或产生A(n-1)，按照OKVS的性质：如果p(n-1)的集合元素是p2到p(n-2)集合中元素，即是这一组的集合交集元素，则对应到A(-1)中的元素就是 Decode(Encode(a2j,F(k2,a2j)),a2j)⊕...⊕Decode(Encode(a2j,F(k(n2),a2j)),a2j)=F(k2,a2j)⊕F(k3,a2j)⊕...⊕F(k(n-2),a2j)（a2j是该组成员所有集合的交集元素）；如果p(n-1)的集合元素不是这一组的集合交集元素，则解码后的数据就是随机数。
    An和A(n-1)中对于解码正确的数据的计算后对应的表达式都是一样的，易看出对An和A(n-1)进行隐私求交，求出的交集就表示了即是第一组内部集合交集的数据，也是第二组内部集合交集的数据，即所有方集合的交集数据。
    安全性分析

对于p1来说：他将自己的数据使用k2到k(n-2)计算伪随机数据异或进行OKVS编码后再发送给pn，由于pn没有这些key，就算解码后的数据是他们的交集，pn也无法进行确定。
对于p2,...,p(n-2)来说：他们将自己的数据使用自己拥有的ki计算伪随机后进行OKVS编码后再发送给p(n-1)，由于p(n-1)没有这些key，就算解码后的数据是他们这一组的交集，p(n-1)也无法进行确定。
对于p(n-1)和pn来说：他们只是使用了自己的数据集在收到的OKVS结构上进行解码，解码后再计算的数据集再和对方进行两方隐私求交来保证新的数据集的安全性。

总结

    该协议的流程也简单易理解比较实用，使用的OKVS只有一次交互且计算效率很高，只有最后的一次两方隐私求交，使得整个协议和其他协议相比效率更高的同时数据传输量也极低。
    附录
    ▲不经意键值存储详细定义
    不经意键值存储（OKVS-oblivious key-value store）是指能够在隐藏key的前提下保留键值映射关系的一种数据结构，包含了通过key-value构造OKVS的Encode方法和通过key查询value的Decode方法。
    Encode((x1, y1), ... (xn, yn))：将键值对列表编码成OKVS的数据结构，其中x是不定长bit串，y是长度为l的bit串，具体编码方式如下图：

    其中v(x)是是预设好的将不定长的x映射到长度为m的bit串的函数。
    D=(d1,d2,...,dm)T，其中元素d_i是和y_i长度一致的bit串，D向量就是编码后的OKVS数据结构，其编码目标就是找到这个D向量，使得上述矩阵‘乘法’成立。

    即将v(xi)产生的bit串中为1对应序号的D向量中的元素求异或的结果是等于yi的。
    Decode(D,x)：给定一个OKVS的数据结构(D向量)和一个key，获取这个key对应的value（如果key在编码时的key列表中，则解出的value值就是对应的y，如果不在，则解出value就是一个随机项）。

    OKVS和普通的哈希表的区别主要是key和value都是隐藏的，只保留了key到value的一个映射关系，因此拥有key可以解出构建时对应的value，没有key则无法解出对应的value也无法推测有哪些key。
    具体构造OKVS的方案本协议使用的是[2]PSI from PaXoS:Fast, Malicious Private Set Intersection中提出的garbled cuckoo table方案，构造出的OKVS结构体大小较小，且encode，decode效率也很高，具体实现可直接阅读该论文的第五部分。

    [1] Simple, Fast Malicious Multiparty Private Set Intersection.
    [2]?PSI from PaXoS:Fast, Malicious Private Set Intersection.