元数据安全:个人隐私的终极保卫战
六鹰资本“元数据”的登场,本身像是一部侦探剧。
01?令人不安的元数据? ?
美国斯坦福大学一研究团队曾用几个月时间收集500个志愿者的通话记录,提取如下电话元数据:
- 志愿者A:与多个地方的神经病学小组有联系,联系过一家专项药房,一个罕见病症管理服务机构,以及一条药品热线,该热线只用来咨询多发性硬化症的复发。
- 志愿者B:与一个大型医疗中心的心脏病专家详谈,还与一个医疗实验室有过简短会话,接过药房打来的电话,并接通过一个家用医疗设备的热线,该设备用于监视心率失常。
- 志愿者C:给一家专门售卖AR半自动步枪的枪支商店打过不少次电话,而且还与AR步枪的生产商客户服务详谈过。
- 志愿者D:一连三个星期与家居改善店、锁匠、水栽经销商和烟草用品商店联系。
从这些电话元数据,可以得出什么结论?
答案是:一个多发性硬化症患者,一个心脏病患者,一个半自动武器持有者,一个家庭大麻种植者。
从实验结果看,上述推断意外地准确,准确到令人隐隐不安。
通过一些看似散乱、没有任何具体内容的“元数据”,一个人的性格、性情、行为特点、生活与工作状态、偏好和需求,突然变得立体,坦露在人们眼前。
说到元数据,先要了解它和数据的区别。通话录音、短信内容、邮件文本、微博和脸书评论,可以称为数据;但一个人何时、何地、和谁通话/发邮件/互动评论属于元数据。
可以简单理解为,元数据是对数据的说明、标记,是对数据属性的描述和背景化。
相比于一条录音内容,一段监控视频,场景式、背景化的信息,对个人隐私的破坏性更大。
以电话元数据为例,从通话的时机、长度和频率,可以推断谈话者的关系,是密友,还是商业伙伴;可以知道通话者对谁感兴趣,什么对他是重要的,以及其他私密信息。
类似承载大量隐私的还有搜索引擎元数据——你的任何键入和查询动作都在网络空间上留有印记并永久保存,这些元数据的隐私程度超过很多人的想像:
(图:谷歌搜索引擎基于用户搜索元数据的键入联想功能)
02?巨大杀伤力?
视线回到2013年,在美国有关元数据的讨论开始进入大众眼帘。
当时前美国国安局(NSA)承包方雇员斯诺登刚向媒体曝光政府收集美国公民电话拨打记录的“棱镜”计划。
时任总统奥巴马向民众强调:“没有人在监听你们的电话。他们不会去查人们的名字,也不会听通话内容,只是筛选所谓的元数据,进而发现可能参与恐怖主义活动人士的潜在线索”。
然而六个月后,一支由白宫任命成立的专家审查委员会向政府提出建议:应停止对美国民众元数据的大规模收集,不要给予任何官员利用这些“极为敏感的私人信息”的机会。
次月奥巴马正式宣布政府不再收集元数据,但这类数据可以由其他机构存储并接受政府审查。
元数据对隐私的巨大杀伤力是促使政策扭转的主要原因,其与政治图谋关联时,可以是致命的。
2014年2月The Intercept报道声称,NSA曾参与美国无人机计划(该计划近年来已在外国射杀数千人),政府仅利用电话拔打记录而非内容,就可确定要追踪的目标,对其展开致命攻击。
有分析指出,元数据可以极为细致地描绘一个人最私密的联系和兴趣,并且从技术角度看,相比于监听成千上万人的通话内容,搜索大量的元数据要容易得多。
两个月后前美国国安局局长及中情局要员迈克尔·海登在参加研讨会时表示,元数据可以告诉政府有关监控目标的“任何事情”,通信实际内容通常并不重要。
“(有关元数据的)描述...是绝对正确的。我们基于元数据杀人。”同时他又强调,采集美国公民元数据的目的并不是为了杀人。
海登的骇人评论再度引爆舆论,而伴随斯诺登棱镜门事件的发酵,元数据保护的重要性开始在世界范围内受到关注。
元数据可能的滥用,给隐私保护提出新的挑战:
如今保护在线交流内容的数据加密计划已十分普遍,像WhatsApp等应用多采用端对端加密(E2EE),以确保第三方窃听者不能读取终端用户发出的信息内容。
但大部分这类计划忽略了谈话者、谈话时间、信息长度等元数据,而许多情况下这些是政府或黑客发起追踪必需的信息,也是他们窃取和攻击的对象。
03?一场悄然打响的保卫战?
事实上,元数据隐私保护技术总体仍存在很大空白。
从用户端来看,公司层面元数据保护意识觉醒先于个人用户,其安全防护手段也更多样。
然而由于缺乏对元数据敏感性的足够认识,更为广泛的消费者人群仍暴露在巨大风险当中。
值得注意的是,当迈克·海登谈论政府如何仅凭元数据搜寻监控目标时,针对元数据的个人隐私保护技术研发几乎同时萌芽。
“(海登的话)就像对加密和安全社区的一记重拳,意味着现有加密术不能真正有效地阻止间谍活动”,一位研究者如是说。
或许正是那一刻,一场个人隐私的终级保卫战已悄然打响。
对于科学家们而言,如何在加密安全性、系统可扩展性和运行效率之间取得平衡尚无确切答案。
(完)