引言
在实际应用中,数据往往来源于多个不同的源头,具有异构性、多样性和复杂性等特点,这给数据的处理、分析和应用带来了巨大挑战[1]。多源异构数据融合方法应运而生,旨在通过先进的技术手段,将来自不同数据源、不同格式、不同结构的数据进行有效整合与展示,为用户提供直观、全面、深入的数据洞察[2]。
多源异构数据融合方法不仅有助于解决数据孤岛问题,实现数据的互联互通[3],还能够显著提升数据处理的效率和准确性,为决策支持、科学研究、产业创新等领域提供强有力的数据支撑。例如,莫慧凌等人利用联邦学习框架实现数据融合,各参与方均利用张量Tucker分解理论,提取数据特征;通过中央服务器收集并聚合来自各参与方的模型参数,形成全局模型;以多次迭代方式优化全局模型,完成数据融合[4]。在异构数据中,存在冗余或冲突的信息。Tucker分解和联邦学习框架在处理这些信息时无法完全避免冗余和冲突的影响,进而影响数据融合效果。王姝等人利用信息熵评估各证据源的相对重要性,并通过散度计算来获取证据可信度优化证据,得到差异信息量,确定各数据源的最终权重,进行数据融合[5]。信息熵方法主要关注于信息量的评估,而对于数据之间的冗余性缺乏直接的识别能力,导致数据融合过程中冗余数据仍然被保留,增加数据处理的复杂性和计算成本。匡广生等人利用图的聚类算法来识别数据中的相似性,进而将相似的数据项进行融合[6]。图的聚类算法主要依赖于数据间的相似关系进行聚类。然而,当数据集中存在关联缺失时,该算法无法准确地将这些数据项划分为同一聚类,导致数据融合结果无法完全反映数据间的真实关系。Gong等人提出了一种多粒度视觉引导的多模态异构图实体级融合命名实体识别方法,该方法通过在不同视觉粒度上整合文本与视觉的跨模态语义交互信息,构建全面的多模态表示[7]。利用多模态异构图精确描述实体级单词与视觉对象的语义关系,并借助异构图注意力网络实现细粒度跨模态语义交互,显著提升识别准确率,但实现过程复杂度较高,可能影响应用效率。
在多源数据融合过程中,数据冗余和冲突是常见问题。知识图谱通过去重、纠错等步骤,以及关系网络的构建,能够减少数据冗余和冲突,提高数据融合的准确性和可靠性。同时,知识图谱通过构建实体之间的关系网络,能够发现数据之间的潜在关联,从而补全数据关联缺失的问题。为此,研究面向多源异构数据的知识图谱可视化融合方法,充分利用各种数据资源,避免数据浪费,提高数据利用率。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006561
作者信息:
梁浩1,付达2
(1.深圳鹏锐信息技术股份有限公司,广东 深圳 518055;
2.北京京能能源技术研究有限责任公司,北京 100020)