设计应用

基于改进FP-growth的多品类打包推荐算法

作者:李雄清1,2,李永1,2,王骏飞1,2,臧凌1,2,刘德志1,3, 卞宇轩1,3,柴阅林1,3,李卓潇 1,3,刘云韬1,3
发布日期:2025-03-26
来源:网络安全与数据治理

引言

多品类打包推荐作为现代推荐系统中的一类重要问题,在服装搭配[1]、电子商务[2]等众多领域受到了广泛关注。该问题的核心在于如何挖掘多个不同类型产品间的关联性并将其捆绑组合,以满足用户多样化需求并提升用户体验。随着推荐系统处理数据量的增长,现有的多品类打包推荐面临诸多挑战:一是即时响应需求高,拟打包产品数据会根据现实情况实时更新,推荐算法需要能够即时准确地完成数据处理;二是数据规模庞大,需要推荐算法从海量数据中高效挖掘出产品间的关联关系;三是数据稀疏性高,即数据中仅有少部分产品出现频次很高,其余大部分产品的出现频次极低,难以发掘出产品间关联关系。

目前,应用于多品类打包的方法主要包括贝叶斯个性化推荐[3]、基于序列的方法[4-5]、基于图的方法[6-7]等。其中,贝叶斯个性化推荐[3]利用贝叶斯定理更新用户对产品的偏好概率,能够处理用户点击等隐式反馈。基于序列的方法将待生成捆绑包视作产品序列,应用序列模型实现产品建模及捆绑包生成。He等[2]应用Transformer架构实现了捆绑包的预生成,并通过多轮对话框架进一步对捆绑包进行优化,能够有效缓解交互稀疏性问题。Wei等[4]通过引入类型的嵌入向量,提高了对不同类型产品的建模精度,并采用非自回归方式并行计算,提高了生成效率。基于图的方法利用图结构构建产品间关联关系,能够实现对复杂关系的精准建模。Chang等[6]使用多个视图分别构建了产品、捆绑包和用户的两两间关系,并设计了束搜索算法以实现捆绑包生成。Gong等[7]将打包推荐归为图的最大团问题,并提出了一种具有多头自注意力编码器和带注意力机制解码器的图注意力网络,实现了较高的打包准确率。

然而,上述方法模型训练时间较长,难以满足部分推荐系统的即时响应需求。例如,在航空旅游零售领域,机票、酒店等产品的价格、库存等信息经常发生变动,推荐系统需要能够即时快速响应,根据更新后的数据即时产出新的推荐结果。关联规则挖掘是一种基于频繁项集的方法,能够有效挖掘出单品类产品间隐藏的关联关系,同时由于关联规则可以存储在数据库中,在实际应用中具有较高的推荐效率。Apriori算法[8]是关联规则挖掘中最经典的方法,其不足在于需要频繁扫描数据库,运算耗时长。为解决这一问题,Zaki等[9]提出了Eclat算法,加入倒排思想,降低了数据库扫描次数;Han等[10]提出了FP-growth算法,采用另一种更为高效的数据结构FP-Tree,有效压缩了数据,提高了运算效率。

不过,在现实场景中,多品类产品数量庞大,包含不同品类产品的订单数量较少,产品间关联信息往往更为稀疏,导致Apriori、FP-growth等传统关联规则挖掘算法需要海量订单数据才能进行有效挖掘。为此,本文提出一种基于改进FP-growth的多品类打包推荐算法,将频繁项集中的项从产品替换为产品属性,从挖掘产品间的关联规则转变为挖掘产品属性间的关联规则,有效降低潜在规则数量,提高稀疏数据的挖掘效率,减少挖掘过程所需订单数量。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006377


作者信息:

李雄清1,2,李永1,2,王骏飞1,2,臧凌1,2,刘德志1,3,

卞宇轩1,3,柴阅林1,3,李卓潇 1,3,刘云韬1,3

(1.北京市民航大数据工程技术研究中心, 北京101318;

2.中国民航信息网络股份有限公司, 北京101318;

3.北京航空航天大学, 北京100191)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。
多品类打包 推荐系统 关联规则挖掘 FP-growth算法 航空旅游零售