设计应用

基于信息熵的数据集重标识风险评估方法

作者:陈 磊1,2,薛见新1,2,张润滋1,2,刘文懋1
发布日期:2020-11-25
来源:2020年信息技术与网络安全第12期

0 引言

    在大数据时代下,数据共享、发布和交易等场景需求变得越来越多,一方面促进了数据流通与价值利用,另一方面引发的个人数据与隐私安全事件近年来呈现爆发趋势[1]

    为了应对挑战,在法规层面,全球掀起了数据隐私的立法热潮,如欧盟《通用数据保护条例》(GDPR)、美国《加州消费者隐私法案》(CCPA)等。我国2017年实施的《网络安全法》,其中一个章节专门明确个人信息安全;此外,我国《个人信息保护法》在加快立法与制定中。在技术层面,如何平衡数据利用与隐私保护问题,已经成为学术界和工业界的一大研究热点[2]。当前,已经发展出了保留格式加密(Format-Preserving Encryption,FPE)[3]、差分隐私(Differential Privacy,DP)[4]、K-匿名(K-Anonymity)[5]和L-多样性(L-Diversity)[6]以及去标识化(De-identification)[7]等技术。其中,去标识化技术通过对原始个人信息进行部分屏蔽、泛化和失真等数据变换操作,是一种意图消除“个人身份”的隐私保护技术。由于其处理规则简单灵活且易于并行处理(高效),目前在隐私保护的数据发布和数据挖掘等实际场景中有广泛应用与部署。通常,在工业界习惯称为“数据脱敏”。




本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003069




作者信息:

陈  磊1,2,薛见新1,2,张润滋1,2,刘文懋1

(1.绿盟科技集团股份有限公司,北京100089;2.清华大学 自动化系,北京100084)

此内容为AET网站原创,未经授权禁止转载。
隐私保护 去标识数据集 重标识风险评估 信息熵