在资源受限的无人机平台上,低延迟无人机图像的目标检测是一项重要但具有挑战性的任务。本文研究了基于稀疏卷积的检测头优化,证明了其在平衡精度和效率方面的有效性。然而,它存在着对微小目标的上下文信息的整合不足,以及在不同尺度的前景存在下对mask ratio的控制的问题。
为了解决上述问题,本文提出了一种新的全局上下文增强自适应稀疏卷积网络(CEASC)。首先开发了一个上下文增强的组归一化(CE-GN)层,将基于稀疏采样特征的统计数据替换为全局上下文特征,然后设计了一种自适应多层mask策略,以在不同尺度上生成最优mask ratio,实现紧凑的前景覆盖,提高了准确性和效率。
在VisDrone和UAVDT这2个主要基准上的大量实验结果表明,当插入具有竞争性能的典型最先进的检测框架(如RetinaNet和GFL V1)时,CEASC显著降低了GFLOP并加速了推理过程。
深度神经网络(如细胞神经网络和Transformer)的最新进展显著提高了在公共基准(如COCO)上的目标检测性能。相比之下,为无人机平台设计检测器目前仍然是一项具有挑战性的任务。一方面,现有的研究热衷于设计复杂的模型,以在高分辨率无人机图像上达到微小目标的高精度,这在计算上很不划算的。另一方面,无人机配备的硬件往往受到资源限制,这对轻量级部署模型提出了快速推理和低延迟的迫切需求。
为了解决准确性和效率之间的平衡困境,学界做出了许多努力,主要是在通用目标检测上,基本上集中于降低骨干网络的复杂性。尽管有一些潜力,但这些方法仍有很大的改进空间,因为它们没有考虑到最先进的检测器广泛使用的重型检测头。
例如,以ResNet18为骨干,RetinaNet中具有512个输入通道的检测头的GFLOP占总GFLOP的82.3%。最近,已经提出了几种方法来解决这个问题,包括网络修剪和结构重新设计,并被证明在加速推理方面是有效的。
然而,当计算量大幅减少时,前者的性能急剧下降受到了批评,无人机的检测尝试证明了这一点,而后者主要针对低分辨率输入(例如640×640)进行了优化,使其无法直接适应高分辨率航空图像。
稀疏卷积显示了另一种有前途的替代方案,该方案通过可学习Mask仅在稀疏采样的区域或通道上操作卷积来限制计算。虽然理论上很有吸引力,但结果在很大程度上取决于有意义区域的选择,因为稀疏卷积中学习Mask的焦点区域容易位于前景内。
关于无人机图像,绝大多数目标的尺度都很小(如图1a所示),前景区域的尺度随着飞行高度和观测视点的变化而变化(如图1b所示),这一问题变得更加突出。不适当的Mask比会放大焦点部分,并且在背景上消耗更多不必要的计算,这往往会同时降低效率和精度。相反,夸大的会缩小焦点部分,导致难以完全覆盖前景和关键上下文,从而导致性能下降。
DynamicHead和QueryDet确实将稀疏卷积应用于检测头;不幸的是,它们的主要目标是在联合使用额外的特征图来提高一般目标检测的性能时,抵消增加的计算成本。它们都遵循了原始稀疏卷积的传统方式,即设置固定的Mask比或仅关注前景,因此远未达到无人机检测器所需的精度和效率之间的权衡。因此,利用稀疏卷积来促进无人机的轻量级检测仍然是一个悬而未决的问题。
本文中提出了一种新的即插即用检测头优化方法,用于无人机图像上的高效目标检测,即全局上下文增强自适应稀疏卷积(CEASC)。具体而言,首先开发了一种上下文增强稀疏卷积(CESC)来捕获全局信息并增强焦点特征,该卷积由具有上下文增强组归一化(CE-GN)层的残差结构组成。由于CE-GN专门保留了一组整体特征,并将其统计数据应用于归一化,因此它补偿了稀疏卷积造成的上下文损失,并稳定了前景区域的分布,从而避免了精度的急剧下降。
然后,提出了一种自适应多层掩蔽(AMM)方案,该方案通过在不同Level的特征金字塔网络(FPN)上最小化精心设计的损失,平衡检测精度和效率,分别估计最优mask ratio。值得注意的是,CESC和AMM可以很容易地扩展到各种检测器,这表明CEASC通常适用于现有最先进的目标检测器,用于在无人机图像上加速。
本文工作的贡献有3个方面:
提出了一种新的基于稀疏卷积的检测头优化方法,即CEASC,用于无人机的有效目标检测。
引入了上下文增强的稀疏卷积层和自适应多层掩蔽方案来优化mask ratio,在精度和效率之间实现最佳平衡。
通过将CEASC集成到各种最先进的检测器(如RetinaNet和GFL V1),在无人机图像的2个主要公共基准上广泛评估了所提出的方法,在保持有竞争力的准确性的同时,显著降低了计算成本。
如图2所示,在给定基本检测器的情况下,整个CEASC网络旨在通过开发上下文增强稀疏卷积(CESC)来优化FPN中不同层的检测头,该卷积通过轻量级卷积模块和上下文增强组归一化(CEGN)层将焦点信息与全局上下文集成。设计了自适应多层掩模(AMM)模块,使模型能够自适应地生成具有足够mask ratio的掩模,从而在精度和效率上达到更好的平衡。
1、稀疏卷积
无人机图像上的大多数现有检测器都使用密集的检测头,对整个特征图进行卷积。尽管充分探索视觉线索有助于探测微小目标,但密集的头部需要更多的计算,这不适用于资源受限的无人机平台。
与此同时,前景区域只占据无人机获取的帧的一小部分,如图1所示,这表明密集的头部对背景进行了大量的计算操作,其中包含的对目标检测有用的信息要少得多。这一观察结果揭示了仅通过对前景区域进行计算来加速检测头的潜力。
最近提出了稀疏卷积(SC),它通过使用稀疏掩模来学习对前景区域的操作,并被证明在加速各种视觉任务的推理阶段方面是有效的。受他们的启发,作者构建了基于SC的网络。
具体来说,给定FPN第层的特征映射,SC采用由共享核组成的掩码网络,其中B、C、H、W分别表示批量大小、通道大小、高度和宽度。基于对进行卷积,生成Soft特征,通过使用Gumbel-Softmax将其进一步转化为掩码矩阵,公式如下:
其中表示2个随机gumbel噪声,σ表示Sigmoid函数,τ是Gumbel-Softmax中对应的温度参数。
根据等式(1),只有掩码值为1的区域在推理过程中涉及卷积,从而降低了总体计算成本。的稀疏性由掩模比控制,在现有研究中,掩模比通常手动设置为大于0.9。
由于基本检测器(这里以GFL V1为例)在检测框架中有一个分类头和一个回归头,考虑到它们通常关注不同的区域,这里为每个头分别引入了一个掩码网络。每个检测头采用4个Conv-GN-ReLU层和1个单独卷积层进行预测,其中用SC层取代传统卷积层。
2、上下文增强
如FGD所述,上下文线索(例如,目标周围的背景)有利于目标检测;然而,SC仅在前景上执行卷积,并放弃具有有用信息的背景,这可能会破坏整体准确性,尤其是在无人机图像中存在微小目标的情况下。为了解决这个问题,Stochastic sampling-interpolation network试图通过插值来恢复周围的上下文,但这是不可靠的,因为焦点和背景区域表现出很大的差异。
在这项工作中提出了一个轻量级的CESC模块,联合利用焦点信息和全局上下文进行增强,同时提高后续计算的稳定性。如图2所示,对特征图应用 point-wise卷积,生成全局上下文特征。由于SC只处理的少数元素,因此Gi在经过多轮SC后趋于稳定,而不需要太多额外的计算开销。
作为SC的重要组成部分,作者将全局上下文信息嵌入到SparseConvolution-GN-ReLU层中,该层以特征地图、掩码和全局特征作为输入,其中表示第个SparseEnvolution-GN-ReLU图层。
CEASA没有像传统的SC那样使用激活元素来计算组归一化的统计数据,而是采用的平均值和标准差来进行归一化,旨在补偿缺失的上下文。假设是在上应用SC后的输出特征图,CE-GN获得上下文增强特征如下
其中*mean[·]和std[·]*分别表示平均值和标准差,和是可学习的参数。
为了进一步减轻SC中的信息损失,使训练过程更加稳定,作者在训练过程中除了稀疏卷积之外,还保留了正常的密集卷积,生成了在全输入特征图上卷积的特征图。然后,使用来通过优化MSE损失来增强稀疏特征图,如下所示:
其中L是FPN中的层的数量。
最后,在激活层之前采用了一种残差结构,将添加到中,即,这加强了上下文保存。CESC模块和CE-GN层的完整架构如图2所示。
在没有任何额外约束的情况下,稀疏检测器倾向于生成具有大激活比(或小掩模比)的掩模以获得更高的精度,从而增加了总体计算成本。
为了解决这个问题,大多数现有的尝试都使用固定的激活比率。然而,由于航空图像的前景表现出严重的波动,固定比率容易导致计算的显著增加或由于前景区域的覆盖不足而导致精度的降低。为了在精度和效率之间进行权衡,作者提出了AMM方案来自适应地控制激活率(或反向控制掩模率)。
具体地,AMM首先基于GT标签来估计最优掩码比。通过利用标签分配技术,对于第i个FPN层,获得了GT分类结果,其中表示包括背景在内的类别数量;和分别指示特征图的高度和宽度。第个FPN层中的最佳激活率估计为
其中和分别指示属于正(前景)实例的像素的数目和所有像素的数目。
为了引导网络自适应地生成具有足够掩码比的掩码,采用以下损失
其中和表示掩模的激活率。通过最小化,被迫遵守与真实前景比率相同的激活比率,从而有助于生成足够的掩模比率。
通过添加传统的检测损失,将整体训练损失公式化如下:
其中,αβ是平衡和的重要性的超参数。
1、在CESC和AMM上
如表2所示,通过使用CESC组件,基础检测器节省了约70%的GFLOPs,运行速度快1.43倍,而精度没有任何下降,因为SC降低了复杂性,CE-GN层和残差结构补偿了上下文的损失。
通过采用动态掩模比获得紧凑的前景覆盖,AMM组件进一步提高了精度,提高了11.9%,同时节省了5.1%的GFLOPs。
需要注意的是,当直接应用没有CESC的SC时,GFL V1的训练过程变得非常不稳定,因此没有通过单独评估GFL V1上的AMM来提供结果。
2、关于在CESC中的详细设计
作者分别评估了残差结构,CE-GN和等式中的归一化损失关于CESC的性能。直接将SC应用于GFL V1会使训练过程不稳定。如表3所示,当使用残差结构时,带有SC的GFL V1变得稳定,需要的gflop要少得多,但由于上下文的丢失,mAP急剧下降。通过CE-GN添加上下文信息,GFLOPs略有增加,从而显著提高了准确性。进一步提高了准确性和效率,因为它隐式地加强了特征的稀疏性。
进一步评估了CE-GN的性能,并将其与未使用归一化的方法进行了比较,如QueryDet、GN、动态头,BN和IN。还报告了原始GFL V1的结果,表示为“Dense Conv.”。
如表4所示,CE-GN在未归一化的情况下显著提高了2.6%。与其他归一化方案相比,CE-GN的精度最好,分别比GN、BN和IN高出0.7%、2.6%和0.8%。值得注意的是,CE-GN在GFLOPs和FPS方面的效率也最好。
为了突出CE-GN的优点,我们将密集卷积和稀疏卷积产生的特征之间的余弦相似性可视化,其中CE-GN和GN分别对SC进行归一化。如图3所示,使用CE-GN的特征比使用GN的特征表现出更高的相关性,这表明CE-GN在增强SC的全局上下文方面的优越性。
为了对全局上下文进行编码,利用了point-wise卷积,并与现有的技术进行了比较,包括普通的3×3卷积、GhostModule,以及一些基于注意力的方法,如CBAM和Criss-Cross注意力。
如表5所示,point-wise卷积在检测精度上优于对应卷积。同时,在基于卷积的方法中,GFLOPs最低,在所有方法中FPS最高,明显显示了其在平衡精度和效率方面的优势。
3、关于AMM的详细分析
比较了AMM模块在VisDrone上的固定屏蔽比分别为0.50到0.95,在UAVDT上分别为0.50到0.975。如图5所示,在降低掩模比时,卷积中涉及的特征更多,导致计算成本更高,FPS更低。在此同时,可以看到检测精度对掩模比值很敏感,而掩模比值并没有随着比值的增加而持续提高。
此外,最优固定掩模比在不同的数据集上有所不同,例如VisDrone为0.9,UAVDT为0.95。相比之下,AMM自适应地确定了一个适当的掩模比,使基础检测器达到最佳的精度和最高的推理速度,证明了其必要性。
请注意,AMM以“逐层”的方式分别计算不同层的掩模比率。将其与“全局”版本进行了比较,后者估计了所有层的全局掩模比率。如表6所示,在mAP和FPS方面,“层级”方法明显优于“全局”方法。
原因在于,如图4所示,FPN不同层的最优掩模比不同,“层”方法比“全局”方法估计掩模比更准确,从而提高了精度和效率。
作者还在表7中评估了其在不同FPN层中的影响。通过较少的FPN层,GFLOPs和FPS得到了改进。放弃P6-P7的影响不大,因为它们的信息较少。去除P4会导致mAP的急剧下降,表明P4至关重要,这与可视化一致。
[1].Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images.
[2].https://github.com/Cuogeihong/CEASC.