FEANet——基于 RGBT的实时语义分割特征增强注意力网络

(142) 2024-04-16 07:01:01

Overview

Title:FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation(FEANet:基于 RGBT的实时语义分割特征增强注意力网络)
Time:2021.
Journal:IROS
Majors:Semantic Segmentation
Link:论文

Summary

  • 大多数现有的 RGB-T 语义分割通常会牺牲空间分辨率来实现实时推理速度,从而导致性能不佳。
  • 为了更好地提取细节空间信息,我们提出了用于 RGBT 语义分割任务的两阶段特征增强注意力网络 (FEANet)。
    • 引入了一个特征增强注意力模块(FEAM)来从通道和空间视图中挖掘和增强多层次的特征。
    • 受益于所提出的 FEAM 模块,我们的 FEANet 可以保留空间信息,并将更多注意力转移到融合 RGB-T 图像的高分辨率特征上。
  • 在城市场景数据集上进行的大量实验表明,我们的 FEANet 在客观指标和主观视觉比较方面优于其他最先进的RGB-T方法(全局 mAcc 和全局 mIoU 分别为 +2.6% 和 +0.8%) 。
  • 对于 480 × 640 RGB-T 测试图像,我们的 FEANet 可以在 NVIDIA GeForce RTX 2080 Ti 卡上以实时速度运行。

Motivation

  • 现有 RGB-T 模型的性能在面对某些复杂场景(例如,杂乱的背景、变化的照明)时往往会急剧下降。
  • 第一个挑战是有效地从 RGB-T 融合数据中提取多级特征。高级特征包含丰富的语义信息,可用于对象定位,而低级特征提供丰富的微观细节,有助于减少故障噪声和细化分割边界。
    - 高级特征包含丰富的语义信息,可用于对象定位,而低级特征提供丰富的微观细节,有助于减少故障噪声和细化分割边界。
    - 而当前的 RGB-T 语义分割方法(例如,MFNet、RTFNet)使用直接特征提取策略或渐进式多数据融合过程来利用多级特征。然而,由于直接的多层次特征提取和合并策略不考虑层次之间的差异,这些过程存在噪声低层次特征的不完全提取问题。
  • 第二个挑战是从热模态中挖掘信息特征。热图像质量低下,导致数据融合过程中出现不可预测的噪声。
    - 以前的 RGB-T 模型通常将额外的热图像视为第四通道输入,无需修改三通道 RGB 编码器流或通过简单的求和和乘法来融合 RGB 和热特征。这些方法从相同的角度处理热和 RGB 信息,忽略了 RGB 图像包含颜色和纹理的事实,而热图包含对象之间的空间关系。如图 (d), (e), (j), (k) 所示,RTFNet 无法检测和分割小的目标对象。
    FEANet——基于 RGBT的实时语义分割特征增强注意力网络 (https://mushiming.com/)  第1张

Method

• 设计了一个两阶段的FEANet 来处理城市场景中RGB-T 语义分割的对象边界和小目标对象。
• 引入了FEAM 模块来增强多级功能,并以互补的方式融合RGB 和热信息。


Model

  • A:overrall architecture
    FEANet——基于 RGBT的实时语义分割特征增强注意力网络 (https://mushiming.com/)  第2张
    FEANet——基于 RGBT的实时语义分割特征增强注意力网络 (https://mushiming.com/)  第3张

  • Thermal Stream 和 RGB Stream 中的编码器包含两个提取阶段。

  • 第一阶段,Thermal Stream 和 RGB Stream 使用 ResNet作为特征提取层。每层的输出部分通过 FEAM (Feature-Enhanced Attention Module)加权。FEAM模块进行细化细节特征。

  • 第二 阶段,将 Thermal Stream 的输出图融合到 RGB Stream 中。输出流中的解码器由转置块 A 和 B 组成。

B:Encoder-Feature Extracting(编码器特征提取)

  • RGB 和热特征都在两个编码器流中提取。现有的 ResNet 是为三通道 RGB 图像提取而设计的,不适用于单通道图像,然后我们将第一个卷积层的数量修改为一层,以将其扩展到热图像。
  • FEAM 模块,使用注意力组件从融合数据中学习特征,在两个编码器流的每个卷积层之后添加 FEAM,可以增强特征的兼容性。
  • FEAM :包含通道注意力操作(channel attention)和通道空间操作(channel attention)。空间通道操作注重全局区域。

C:Decoder-Resolution Restoring(解码器分辨率恢复)(改进于RTFNet)

  • 主要被设计为有效地利用多层信息来进行细节像素的细化。
  • 解码器架构是从RTFNet解码器中改进出来的,然后将特征映射恢复到原始图像中。与RTFNet不同的是,我们删除了原始块的两个连续的1×1卷积,从而避免了解码器中复杂的上采样过程。

Experiments

  • A:The RGB-T datasets:MFNet datasets
  • B:Loss function:
    D i c e L o s s = 1 − 2 ∑ i N p i g i ∑ i N p i 2 + ∑ i N g 2 DiceLoss=1- \frac{2\sum_{i}^{N}p_ig_i}{\sum_{i}^{N}p_i^2+\sum_{i}^{N}g^2} DiceLoss=1iNpi2+iNg22iNpigi

S o f t C r o s s E n t r o p y L o s s = − 1 n ∑ i = 1 n ∑ j = 1 c y ^ i j l o g ( y i j d ) SoftCrossEntropyLoss=-\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{c}{\hat{y}_{ij} }log({y_{ij}^d}) SoftCrossEntropyLoss=n1i=1nj=1cy^ijlog(yijd)

  • C:Evaluation Metrics

    • Accuracy (Acc):准确性
      m A c c = 1 k + 1 ∑ i = 0 k p i i ∑ j = 0 k p i j \mathrm{mAcc}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}} mAcc=k+11i=0kj=0kpijpii
    • Intersection-over-Union (IoU):交并比
      m I o U = 1 k + 1 ∑ i = 0 k p i i ∑ j = 0 k p i j + ∑ j = 0 k p j i − p i i \mathrm{mIoU}=\frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{i i}}{\sum_{j=0}^{k} p_{i j}+\sum_{j=0}^{k} p_{j i}-p_{i i}} mIoU=k+11i=0kj=0kpij+j=0kpjipiipii
  • D:Results And Analysis
    FEANet——基于 RGBT的实时语义分割特征增强注意力网络 (https://mushiming.com/)  第4张

在Guardrail、Color Cone类别中提交较大,其他类别中也能有较好的结果。表明对小目标对象有更好的检测和分割。

  • E. Ablation Study

分别从 RGB 流和热流中移除了 FEAM 模块,将热流中的无 FEAM 称为 NFTS,RGB 流中没有 FEAM 为 NFRS,RGB 和热流中没有 FEAM 被分别命名为 NFRTS。 FRTS 意味着 FEAM 既是 RGB 又是热流。

FEANet——基于 RGBT的实时语义分割特征增强注意力网络 (https://mushiming.com/)  第5张


Conclusions

  • 提出了一种新颖的两阶段 FEANet,用于从 RGB 和热图像中挖掘信息热线索,用于城市场景的语义分割。具体来说,我们引入了 FEAM 从通道和空间视图中挖掘和增强信息特征。
  • 实验结果表明,FEANet 在小目标对象分割上表现更好,并产生清晰的对象边界。所提出的 FEANet 在单个 GPU 上以实时速度运行,使其成为自动驾驶应用的潜在解决方案。
  • 未来,我们希望将更多不同形式的信息(例如深度、音频)融合到网络中以进行分割改进。

Notes

  • 语义分割是计算机视觉中检测和定位目标对象的一大挑战。
  • FuseNet:CNN 网络,包含一个编码器-解码器结构,可以同时从 RGB 和深度图像中提取特征。
  • DenseNet
  • MFNet、RTFNet 和 FuseSeg-161,
  • 编码器:它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。编码器部分主要由普通卷积层和下采样层将feature map尺寸缩小,使其成为更低维度的表征。目的时尽可能多的提取低级特征和高级特征,从而利用提取到的空间信息和全局信息精确分割。
  • 解码器:它将固定形状的编码状态映射到长度可变的序列。 解码器部分主要由普通卷积、删除改样层和融合层组成。利用上采样操作逐步恢复空间维度,融合编码过程中提取到的特征,在尽可能减少信息损失的前提下完成同尺寸输入输出。
  • S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional block attention module,” in 2018 European conference on computer vision (ECCV), 2018, pp. 3–19(启发了FEAM:使用注意力组件从融合数据总学习特征)

References

S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional
block attention module,” in 2018 European conference on computer
vision (ECCV), 2018, pp. 3–19

THE END

发表回复