引言
视觉数据的高效流通与智能利用已成为推动数字经济与人工智能技术深度融合的关键环节。场景图生成技术作为视觉数据结构化的重要手段,为视觉数据的标准化表达、跨领域共享与可信流通提供了语义支撑[1-3]。通过将复杂图像内容转化为语义化的场景关系结构,如图1所示,不仅提升了视觉认知模型的可解释性,也为数据要素化管理与流通中的数据脱敏、知识映射和价值定价提供了新的技术路径。图1所示为同一幅图像及对应的两种不同场景图,图1右侧上方为Visual Genome 数据集中标注的真值场景图,右侧下方为生成的场景图。在多数情况下,生成的场景图确实能准确捕捉视觉场景的信息,因为场景图生成模型仅能预测频繁出现的关系。

图1 一幅图像及对应的两种不同场景图
作为构建场景图的基本单元,三元组不仅描述了场景中的实体,还揭示了这些实体之间的关系。然而,三元组并非孤立存在,三元组间的消息传递有助于完善特征并识别视觉关系。近期研究[4]采用短语引导的消息传递结构,在主体、客体和谓词的特征提取分支间交换信息。通过捕获三元组组件间的统计关系并输出主体、关系和客体的后验概率。此外,由双空间认知特征匹配模块组成的ZoomNet[5]用于在三元组的不同组件间进行消息传递。
场景图不仅包含单个物体及其关系,还包含围绕这些视觉关系的上下文信息。由于场景图的特殊结构,一些研究将场景图生成视为通过在图或子图结构上传递信息的图形推理过程[6]。在考虑物体间层次关系时,动态树结构也被用于视觉上下文编码任务[7]。Zellers提出了一种新的链式结构模型,堆叠motif网络[8],使用LSTM为每个物体创建上下文表示。近期研究使用门控循环单元(GRU)解决图推理问题,表明基于RNN的模型可用于编码视觉关系识别的上下文线索[9-10]。BGT提出了基于双向GRU层的物体信息传递模块[11]。总的来说,近期研究已通过消息传递机制探索了视觉上下文模型的构建,并取得了良好的结果。然而,这些研究可能忽略了仅依靠视觉信息建模进行消息传递所导致的噪声问题。
尽管现有方法取得了显著进展,它们仍普遍面临一个共性挑战:许多模型在消息传递过程中过度依赖于初始的、可能包含噪声的视觉信息进行建模,未能充分有效地筛选和利用高质量的上下文信息,这导致噪声在传递过程中被放大,从而限制了关系预测的最终精度与鲁棒性。具体而言,这些方法在如何充分、高效地利用目标周围的上下文环境信息,并抑制其中无关噪声的干扰方面,仍有较大提升空间。
为了应对上述挑战,在本研究中,为场景图生成任务提出了一种新颖的、上下文增强的消息传递网络(MCAN)。该模型的核心思想是从粗到细(Coarse-to-Fine)地建模并利用视觉上下文信息。首先,模型利用GRU在序列式推理框架下捕获实体之间的长程依赖(Long-range Dependencies)与潜在的上下文线索,完成对上下文的初步(粗粒度)建模。随后,通过引入多头自注意力机制(Multi-Head Self-Attention Mechanism),对已由GRU建模的上下文信息进行细粒度的相关性筛选与自适应权重分配,突出关键信息,抑制噪声[21]。最后,通过一种残差融合(Residual Fusion)策略,将经过筛选和增强的上下文信息与物体的初始视觉表示进行有效结合,从而完成信息的高效建模与传递。
本文在大规模公开数据集Visual Genome[12]上进行了全面且严格的实验与广泛的消融研究,以验证MCAN的有效性与优越性。实验结果表明,通过引入所设计的MCAN模块,本文的方法在场景图生成的三个经典子任务(谓词分类、场景图分类、场景图检测)上均取得了优于或与多种最先进方法(State-of-the-Art)相当的性能,充分证明了该模型在更充分挖掘上下文信息与有效抑制噪声传播方面的强大能力。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000007119
作者信息:
高鑫颖,张宇,刘路,张树钢
(数字大理建设运营有限公司,云南 大理 671000)