Select, Supplement and Focus for RGB-D Saliency Detection
CVPR2020 卢湖川团队
一 摘要
在深度图或单个物体边缘的任意分布的错误或者区域的缺失会对RGBD显著性检测产生负面影响。为了克服这个问题,本文提出了一种新的用于精确RGBD显著性检测的工作框架,该框架考虑了两个模态(RGB和深度信息)的全局和局部的补充信息。设计了一个complimentary interaction module(CIM)模块去分别从RGB和深度中提取出有用的特征(表示),并且可以高效的融合跨模态的特征,融合后的特征可以精确的定位出显著目标并带有非常好的边缘细节。
二 问题的提出
本文主要集中在两点上:
(1)探索并建立跨模态特征的互补与融合
(2)避免错误的深度信息的引入,以产生负面影响
并且针对于对几个比较有挑战性的场景进行了优化,挑战性的场景包括:
透明物体
多目标
低对比度
小目标
带有不可靠的深度图
三 整体框架结构
首先,两个基于VGG16的编码器分别从RGB和深度图中提取特征,然后将这两个提取到的特征输入到CIM模块中,经过CIM模块输出边缘特征和跨模态融合特征,接下来分两步走:将三个尺度的边缘特征输入到边缘解码器中,最后输出的是预测边缘图;将三个尺度的融合特征输入到显著性解码器,输出的预测的显著图。然后使用预测的边缘图和真实边缘图,真值图和深度图来计算显著目标的权重,从而监督最终的显著图。
3.1 CAU模块
在这个模块中,从VGG16主干网的第五层输出的特征经过一个1X1的卷积操作得到一个原始显著图initial saliency map和一个深度图。步骤如下:
(1)将深度图划分成m个二进制的掩码图,其中深度区域的像素值设为1,其余像素设置为0。
(2)然后将m个二进制掩码图和initial saliency map输入到两个W中,分别进行RGB modal region-wise select和dept modal region-wise select,其具体计算方式如下:
RGB modal region-wise select
dept modal region-wise select
其中,di表示第i张二进制掩码图,di,j表示第i张掩码图的第j个像素值,N表示一整掩码图的总的像素数量,m表示掩码图的数量,Spr表示initial saliency map,sprj表示initial saliency map的第j个像素值。
注意:m张二进制掩码图的分辨率和深度图是一样大小的。
(3)将两个W中输出的结果分别与CIM模块的输入RGB特征和深度特征结合(元素相乘),在经过Attention模块(CA操作),之后再输出两个筛选之后的RGB特征和深度特征。总体的计算公式如下:
RGB:
深度:
3.2 BSU模块
BSU模块的主要作用是用来提取和保留边缘信息的模块。
现存的RGBD显著性检测方法由于存在池化操作,则必然存在模糊边界问题,如下图所示:很难从深度信息中去提取边缘信息。
基于这样一个考量,本文设计了一个边缘提取的单元,从而可以从高级的卷积特征中探索边缘细节(VGG6:L3,L4,L5层),具体过程如下:
(1)针对输入的RGB特征进行一个多尺度边缘特征提取器,就也就是经过多个膨胀卷积,在进行融合的过程,输出一个边缘特征。
(2)这个边缘特征在经过下面的公式计算,得到一个增强的边缘特征。
Fb表示边缘特征,表示增强的边缘特征,但问题是F[l]代表的是什么。
3.3 CIM模块
在这个模块是由BSU和CAU模块组成的。从CAU模块输出的两个特征再分别和BSU模块输出的边缘增强模块进行连接,可以得到两个增强的特征
分别表示深度和RGB特征。
然后再将这两个特征进行融合,然后输出一个融合之后的特征。融合操作(cat(),也不知道具体怎么去融合)
3.4 解码
这样分别将三个层次的CIM模块输出的融合特征和边缘特征进行解码,得到预测的边缘图和预测显著图。
3.5 RW模块
设计这样一个模块的目的是使得本模型可以适用于那些比较有挑战性的样本:包括(1)有挑战性的边缘信息的样例(2)不可靠的深度信息的样例
因此针对于(1):我们设计一个计算操作去给挑战性的区域(边缘)产生就一个权重
其中,pmaxk()表示以大小为k的最大池化操作,bgt表示的真实的边缘图,bpr表示预测的边缘图。
针对于(2)也采取类死的操作:
最后通过计算交叉熵损失来监督最终的显著图。