TraDes简述

(145) 2024-05-21 07:01:01

引言

  目前在线多目标跟踪方法主要遵循两个模式(原文用的是paradigm(范例,模范),如果写英文论文的话也许用得上):先检测后跟踪(tracking-by-detection,TBD)、联合检测跟踪(joint detection and tracking,JDT),本文方法是遵循联合检测跟踪,不同的模式对比如下:
TraDes简述 (https://mushiming.com/)  第1张
  对比DBT的两个backbone,JDT有天然的优势,一个网络同时实现检测和关联任务,能更加快速的进行推理。JDT虽然网络共享,良好的检测对于追踪的稳定和一致是有益的,但是相较于追踪后的结果,检测仍然是独立的,也就是追踪后得到的结果对下次检测几乎无任何关系。并且其中使用的re-ID损失往往不利于检测效果的提升,re-ID的损失关注的是类内的变量,需要尽可能的将类内拉开,而检测的目的是最大化类间的区别,最小化类内的变量。
  面对以上问题,作者认为使用追踪的线索应该来帮助检测,于是提出了TraDeS模型,模型中的特征图中的每个点代表一个目标中心或者背景区域,类似于CenterNet,通过将追踪整合进检测的同时,专门设计了一个re-ID学习机制来解决问题,然后提出了两个模块:基于代价量的关联(CVA)模块和一个运动引导特征整理(MFW)模块。
  CVA模块通过backbone提取点级re-ID embedding特征来构建一个存储两帧间的所有embedding对之间的匹配相似度的代价向量(cost volume)。利用代价向量,推理出追踪的偏移(所有点的时空位移,如潜在目标的中心点在两帧中位移)。这些追踪偏移加上提取的embedding一起构建数据关联。之后MKF利用追踪偏移作为运动线索,将对象特征从前一帧传播到当前帧,最终传播的特征和当前的特征一起聚集来实现检测和分割。
  在CVA中,re-ID objective涉及类间方差,这种方法不仅学习了有效的embedding作为常见的re-ID损失,而且与检测损失很好地兼容,不会损害检测性能,如下面表1-b所示。此外,因为跟踪偏移是基于外观embedding相似性来预测的,所以它可以匹配具有非常大的运动或处于低帧速率的对象,如图3所示,或者甚至精确地跟踪具有不可见的大运动的不同数据集中的对象,如图4所示。
TraDes简述 (https://mushiming.com/)  第2张

TraDes简述 (https://mushiming.com/)  第3张
TraDes简述 (https://mushiming.com/)  第4张

相关工作

  Tracking-by-Detection:在这个框架内,首先应用现成的对象检测器来为每个帧生成检测框。然后,使用单独的重新标识模型来提取那些检测到的box的外观特征。为了构建轨迹,一个简单的解决方案是直接计算与运动模型(例如卡尔曼滤波器)的外观和运动相似性,然后通过匹配算法来解决数据关联。其他一些努力(《Learning a neural solver for multiple object tracking》、《Multiple target tracking based on undirected hierarchical relation hypergraph》、《Multiple hypothesis tracking revisited》),通过将每个检测视为图节点,将数据关联公式化为图优化问题。然而,TBD方法分别进行检测和跟踪,因此通常计算量很大。本文方法将跟踪线索集成到检测中,并以端到端的方式高效地执行检测和跟踪。
  Joint Detection and Tracking:常见的方法(《Tracking objects as points》、《Towards real-time multi-object tracking》、《Online single stage joint detection and tracking》、《Tracking without bells and whistles》、《Integrated object detection and tracking with tracklet-conditioned detection.》、《Fairmot: On the fairness of detection and re-identification in multiple object tracking.》)是在对象检测器上建立一个与跟踪相关的分支,以预测对象跟踪偏移或数据关联的re-ID embedding。或者,利用transformer来匹配轨迹(《Transtrack: Multiple-object tracking with transformer.》、《Trackformer: Multi-object tracking with transformers.》)。CTracker通过在每两帧中链接成对的框来构建轨迹。TubeTK以离线方式直接预测作为轨迹的盒形管。然而,大多数JDT方法面临两个问题:第一,没有跟踪的帮助,检测仍然是单独预测的。第二,re-ID损失与联合训练中的检测损失具有不同的目标。相比之下,我本文方法将跟踪线索紧密地结合到检测中并设计一种新的re-ID embedding学习方案来解决这两个问题。
  Tracking-guided Video Object Detection:在视频对象检测中,一些尝试(《Detect to track and track to detect》、《Integrated object detection and tracking with tracklet-conditioned detection.》)利用跟踪结果来重新加权由初始检测器生成的检测分数。虽然这些工作努力通过跟踪来帮助检测,但它们有两个缺点:首先,跟踪仅在后处理阶段被用来帮助检测。检测仍然由独立的对象检测器预测,因此检测和跟踪是单独优化的。因此,最终的检测分数可能严重依赖于跟踪质量。其次,手工制作的重新加权方案需要针对特定的检测器和跟踪器进行手动调整。本文检测是在跟踪结果的条件下学习的。
  Cost Volume:cost volume已经成功地应用于深度估计和光流估计,用于关联两个帧之间的像素。本文将cost volume扩展到多目标跟踪器,本文将证明在学习re-ID embedding和推断跟踪偏移方面是有效的。

方法

  TraDeS基于基于点的检测器CenterNet(《Objects as Points》)进行构建的,类似于(《Tracking objects as points.》),在CenterNet上添加一个额外的分支预测跟踪用于数据关联。大多数以前的联合检测和跟踪方法在没有来自跟踪的明确输入的情况下执行独立检测。
  相比之下,本文目标是将跟踪线索集成到端到端的检测中,从而提高对困难场景的检测,这反过来又有利于跟踪。TraDes的框架如下所示:
TraDes简述 (https://mushiming.com/)  第5张
CVA模块
TraDes简述 (https://mushiming.com/)  第6张
TraDes简述 (https://mushiming.com/)  第7张
MFW模块
TraDes简述 (https://mushiming.com/)  第8张
Tracklet 生成
TraDes简述 (https://mushiming.com/)  第9张

实验

  消融实验
TraDes简述 (https://mushiming.com/)  第10张
  MOT Challenge 2D追踪数据集实验:
TraDes简述 (https://mushiming.com/)  第11张
  nuScenes数据集3D目标追踪实验:
TraDes简述 (https://mushiming.com/)  第12张
  YouTube-VIS验证集实例分割:
TraDes简述 (https://mushiming.com/)  第13张

总结

  本文提出了一个新的在线联合检测和跟踪模型TraDes,重点是利用跟踪线索来帮助回馈检测,使用位置轨迹偏移信息更好指导检测。类似于CenterNet,通过将追踪整合进检测的同时,专门设计了一个re-ID学习机制来解决问题,然后提出了两个模块:基于代价量的关联(CVA)模块和一个运动引导特征整理(MFW)模块。CVA模块用于学习re-ID embedding和为运动建模一个4维的代价度量;MFW模块从CVA接受运动信息,从而传播过去的目标特征图,增强当前帧特征图进行检测或者分割。

THE END

发表回复