引言
随着互联网的快速发展,在线购物、出行服务、系统工具和生活服务等都为人们带来了极大的便利。根据CNNIC数据,截至2023年12月,中国网民数达10.92亿,互联网渗透率达77.5%。同时,Log4j等重大漏洞的出现也印证了Web应用程序所带来的严重危害。而URL作为访问网站的唯一入口,其也成为了Web攻击的重点对象,如何从海量业务访问中检测出风险URL也成为了重点研究方向。针对URL的检测,目前的研究方向主要集中在恶意URL,是指通过作为钓鱼网页的载体、XSS攻击等多种方式窃取用户的隐私和财产,造成严重的网络安全威胁的URL[1],检测方法主要包括特征值检测、黑白名单过滤等,其不足之处在于,当特征值或URL不在预设的名单中,则会产生漏报,同时此类方法无法实时对新的URL进行检测。启发式技术的提出解决了对新的URL检测的不足,但此类方法仅能用于有效数量的常见威胁[1]。然而,随着URL攻击的复杂度以及攻击能力的不断增强,传统的检测方法已无法满足防护需求,且其覆盖范围较窄,无法识别海量业务访问中存在风险的URL,需要探索新的应用场景和检测方法。在20世纪80年代,随着人工神经网络的成功,机器学习越来越受到重视,由于其使计算机能够学习、适应、推测模式,在没有明确编程指令的情况下相互通信[2]的特点,逐渐应用到网络安全领域。相较于传统的检测方法,机器学习模型具有更高的检测效率和更强的泛化能力。目前对于URL的研究主要集中在恶意URL,而非业务相关的风险URL的检测。恶意URL的相关研究主要可以分为三类:第一类是单一的机器学习算法,如BP神经网络[3]、卷积神经网络[4]、关联规则[5]等。第二类是集成多种机器学习算法,如双向长短期记忆网络[6]和胶囊网络结合、双向长短期记忆网络和卷积神经网络结合[7-9]等,同时引入注意力机制来增加关键特征的权重。此类研究中还有一种是集成学习[1],一种方法是主要利用岭分类、支持向量机、朴素贝叶斯作为初级学习器,采用逻辑回归作为次级学习器,通过初级学习器和次级学习器相结合的双层结构对URL进行检测[10];另一种方法采用CNN与XGBoost相结合的检测模型,利用CNN实现自动提取特征,通过XGBoost进行分类[11]。最后一类研究是机器学习与其他手段联合进行检测,如威胁情报[12]、专家知识[13]、字符嵌入编码[14]等。本文对业务从互联网接收到的风险URL请求开展检测研究,采用分步建模法和集成学习的思想,将风险URL检测模型分为两个子模型:风险URL检测以及风险URL类型分类。首先采用GBDT算法确定业务访问的URL是否存在风险,针对风险URL,采用XGBoost算法确定具体的风险类型。同时产生告警供安全运营人员确认并处置,在一定程度上弥补现有特征值检测方法的漏报。
本文详细内容请下载:
http://www.chinaaet.com/resource/share/2000006089
作者信息:
冯美琪1,2,李赟1,2,蒋冰1,2,王立松1,2,刘春波3,陈伟1,2
(1.中国民航信息网络股份有限公司运行中心,北京101318;
2.中国民航信息网络股份有限公司IT基础设施国产化适配工程技术研究中心,北京101318;
3.中国民航大学信息安全测评中心,天津300300)