k-匿名算法

30 November 2019

18:31

人类历史上，除了计算机外从没有一项技术可以在短短的几十年间，能够全方位的影响整个社会的各个领域。技术的发展，少不了许多代人为之的努力。无论是在计算机硬件上，还是在实现的算法上，这其中有着大量非常精巧的设计，在后面的文章中，将会不定期的把这些知识展现出来。这次介绍一个在隐私保护领域常用的模型，K-匿名。

背景

随着大数据分析技术的迅猛发展，研究者以及各个商业公司迫切的需要从大数据中挖掘出有价值的信息。要想从大数据中挖掘信息，首先要有足够的可公开的数据，但是当大规模数据拥有者比如医院、政府、大数据公司等，对外发布数据时，不可避免的会涉及到公民的隐私问题。如果最大限度的保护公布数据的统计特征，又不泄露公民的隐私显得格外重要。

分析

表1是某医院数据库中存储的一张病历表。一共有7个属性，分别为用户识别号tId、姓名name、省份province、年龄age、性别sex、所患疾病disease、邮编zip。

表1 医院病历表

这一张表医院是不能直接用于发布出去的，至少也要把病人的姓名删掉然后再发布。在这张表里，病人的姓名是病人的标识符，如果有身份证号的话，也是属于标识符。标识符就是能够唯一标识病人身份的属性。对于标识符通常采用的是隐匿处理的方式（删除、屏蔽或加密）。那么我们假设医院将表1进行了发布，为了保护病人的隐私，将姓名这一属性删除掉了。

在这张表里，除了有标识符外，还有一些属性是准标识符。准标识符指的是那些介于标识符与非敏感属性之间的一些属性，这些属性通过与其它的数据表进行结合（链接攻击），也能够识别出病人的具体信息。在表1中姓名、省份、年龄、性别、邮编都可以看成准标识符。

链接攻击

链接攻击是从发布的数据中获取隐私信息最常用的攻击方法。攻击者利用从别处获得的数据，和本次发布的数据进行链接，从而推测出病人的隐私信息。

例如，攻击者从别处获得了该区域的选民信息表。该选民信息表中并没有涉及个体的隐私信息。

表2 选民信息表

当攻击者将表1和表2的准标识符进行链接起来时，会惊奇的发现，名为李青的选民，具有很大的概率是肺炎患者。这样一来，病人的隐私信息就泄露了。

K-匿名隐私保护模型

K-匿名隐私保护模型要求每条记录在发布数据前，都至少与表中K-1条记录无法区分开来。具有相同准标识符的记录构成一个等价类。所以，即使攻击者知道了一定的背景知识，知道了表2的选民信息，也无法与表1中确定的一条信息进行链接，因为在表1中有K条信息可以被链接，攻击者此时便无法唯一的识别出某个病人。表3满足2-匿名医疗数据表（此表数据的选取和表1表2无关）。表3中存在3个等价类，可以看出一些属性的数据范围变大了，这是泛化技术。

表3 满足K=2匿名数据表

细心的读者可能看出来了一些破绽，如果处于同一等价类中的记录，在敏感属性（疾病）上取值是相同的话，同样会泄露病人的隐私，这是同质性攻击。

来自 <https://zhuanlan.zhihu.com/p/50183231>

提出背景

Internet 技术、大容量存储技术的迅猛发展以及数据共享范围的逐步扩大，数据的自动采集和发布越来越频繁，信息共享较以前来得更为容易和方便；但另一方面，以信息共享与数据挖掘为目的的数据发布过程中隐私泄露问题也日益突出，因此如何在实现信息共享的同时，有效地保护私有敏感信息不被泄漏就显得尤为重要。数据发布者在发布数据前需要对数据集进行敏感信息的保护处理工作，数据发布中隐私保护对象主要是用户敏感信息与个体间的关联关系，因此，破坏这种关联关系是数据发布过程隐私保护的主要研究问题。

传统处理办法

（一）匿名。

对姓名，身份证号等能表示一个用户的显示标识进行删除

弊端：攻击者可以通过用户的其他信息，例如生日、性别、年龄等从其他渠道获取的个人信息进行链接，从而推断出用户的隐私数据。如下图的表：