设计应用

一种基于Simhash算法的重复域名数据去重方法

作者: 侯开茂,韩庆敏,吴云峰,黄 兵,张久发,柴处处
发布日期:2022-04-29
来源:信息技术与网络安全 4期

0 引言

随着电子信息技术的发展,各行各业都产生了大量的数据信息,根据国际数据公司(International Data Corporation,IDC)的最新预测:到2023年,中国的数据量将达到40 ZB,并且随着5G技术的普及,数据量增长将会迎来又一个新的高潮[1]。有研究发现,这些数据中超过60%都是重复冗余数据[2],传输和存储这些冗余数据不仅造成了存储资源和网络资源的严重浪费,也降低了使用数据的效率。并且随着时间推移,这些数据带来的冗余问题会越来越严重。域名[3](Domain Name)作为互联网中频繁使用的数据类型之一,是一种特殊的数据形式,其对字符的变化敏感度极高,一个字符的变化往往会对使用结果产生严重的影响。因此,处理重复域名数据需要采用精确而且高效的去重技术。

已有重复数据处理技术中,完全文件检测(Whole File Detection,WFD)技术[4]无法对内容进行查重处理,固定分块(Fixed-Sized Partition,FSP)检测技术、可变分块检测技术和滑动块检测技术都是针对数据共有特征的粗粒度去重,直接用于重复域名的处理效果并不理想。因此,本文在已有重复数据检测技术的基础上,引入Simhash算法,结合域名数据的结构特征,改进计算文本特征值的方式,提出了一种基于Simhash算法的重复域名数据去重方法。经过实验对比看出,该方法对于处理重复域名数据效果更好,同时在时间开销上也和原有技术差别不大,对于处理重复域名数据具有比传统去重技术更好的实用价值。






本文详细内容请下载:http://www.chinaaet.com/resource/share/2000004102。





作者信息:

侯开茂,韩庆敏,吴云峰,黄  兵,张久发,柴处处

(中国电子信息产业集团有限公司第六研究所,北京100083)




微信图片_20210517164139.jpg

此内容为AET网站原创,未经授权禁止转载。
数据去重 域名 Simhash 数据分块