设计应用

基于多尺度特征融合和SAM引导的无人机小尺度目标检测

作者:钟嘉宇1,牛利玲2,任超1
发布日期:2026-03-25
来源:网络安全与数据治理

引言

近年来,深度学习技术的快速发展显著推动了计算机视觉与智能感知领域的进步,为遥感图像的自动化理解提供了强大的方法支撑。在此背景下,结合飞行控制与高分辨率成像技术的持续突破,无人机在遥感监测中的应用广度与深度不断拓展。依托其广域覆盖、灵活机动与近地观测等优势,无人机系统已广泛

服务于农作物长势动态监测[1]、车辆检测与轨迹分析[2]以及灾情快速勘察[3]等多样化场景,将逐步发展为多行业实现高效、实时区域感知的核心技术手段。然而,在实际应用中,尤其是在执行低空飞行任务时,无人机所获取的图像常面临显著的目标检测挑战:待识别目标(如行人、车辆等)在图像中通常呈现为小尺度目标,其边界框尺度往往仅为数十像素,导致目标特征信息不足、信噪比较低,显著增加了检测与识别的难度。针对这一挑战,研究者们从数据与模型两个核心维度展开了系统性探索,主要形成了两大技术路径:样本导向的方法与多尺度感知的方法。

基于小目标在图像中占比小、与锚点重叠度低的问题,研究者们探索样本导向的方法,即通过人工合成或变换,在现有图像中增加小目标实例,解决小目标稀缺问题。RRNet[4]引入自适应重采样数据增强策略,利用先验分割图来引导小目标粘贴位置。DSGAN[5]提出一种基于生成对抗网络的小目标检测数据增强方法,其通过大目标生成高质量合成小目标,并结合分割等方法合理选择位置粘贴。尽管上述样本导向的数据增强方法在小目标稀疏的训练数据中表现良好,但当原始训练集本身已包含密集分布的小目标时,其基于复制粘贴的增强机制易加剧样本中的目标重叠、尺度失配与背景语义冲突,不仅难以提升数据多样性,反而可能引入分布偏移与伪影干扰,导致模型训练不稳定。

同时,目标尺度的显著差异普遍存在:同一图像中常同时出现远距离的小尺度目标与近距离的大尺度目标。这一特性对检测模型的尺度适应性提出了挑战,促使多尺度感知能力成为现代目标检测系统的核心设计要素。其中, FPN[6]首次系统性地将高层语义特征通过上采样与低层高分辨率特征融合,在保持定位精度的同时增强特征语义信息,从而显著缓解尺度变化带来的性能下降问题,成为特征提取器的核心组件。随后,一大批优秀的多尺度特征融合方法涌现出来。PANet[7]在FPN 的自顶向下路径基础上增加了自底向上的路径,实现双向跨尺度特征融合。BiFPN[8]在PANet双向特征融合基础上,通过精简冗余连接和引入可学习的加权融合机制,实现了更低计算开销的特征融合。SSPNet[9]通过上下文注意力模块、尺度增强模块和尺度选择模块协同优化多尺度特征利用,并结合加权负采样策略,显著提升了微小行人检测性能。SCRDet[10]通过采样融合网络提升多尺度小目标感知能力,结合监督像素注意力与通道注意力机制抑制背景干扰、强化目标特征。FFCAYOLO[11]通过特征增强、多尺度融合与空间上下文感知三大模块,在显著提升遥感小目标检测精度与鲁棒性的同时兼顾实时性。上述研究表明,合理融合多层特征,可有效缓解尺度变化带来的性能下降。尽管如此,如何在多尺度分布下实现较好的检测性能,仍需要进一步探索。

近年来,以SAM[12]、DINO[13]为代表的视觉大模型,因其在海量数据上训练获得的强大通用视觉表征与零样本泛化能力,为解决上述问题提供了新的思路。其内在的丰富语义信息,可为提升目标检测,尤其是小目标的检测性能,提供宝贵的先验知识。为了进一步提升模型对小尺度目标的检测能力,更有效地应对航拍遥感图像中因成像距离远、目标占比低导致的特征弱化与易漏检问题,本文提出了一种基于多尺度特征融合与SAM视觉特征引导的小目标检测网络(MSGYOLO),其主要贡献如下:

(1)针对小目标检测中多层次特征融合不足的问题,提出基于特征金字塔的多尺度检测架构,通过引入小目标检测层,强化多尺度特征表达能力。

(2)针对深层特征感受野受限和全局上下文建模不足的问题,融合空洞融合模块(Dilated Fuse Block, DFB)与Transformer模块(Transformer Block, TFB),通过多分支空洞卷积扩大感受野,并利用自注意力机制捕获长程依赖,提升复杂场景下小目标的表征能力。

(3)针对网络对小目标特征提取不稳健的问题,引入SAM视觉大模型的视觉先验知识作为引导信息,指导检测网络的训练过程。


本文详细内容请下载:

http://www.chinaaet.com/resource/share/2000007023


作者信息:

钟嘉宇1,牛利玲2,任超1

(1.四川大学电子信息学院,四川成都610065;

2.四川航天电子设备研究所,四川成都610100)

此内容为AET网站原创,未经授权禁止转载。
目标检测 特征提取 深度学习