目标追踪iKUN，即插即用！任何目标指定跟踪！（附论文及源码）-轻识

以下文章来源于微信公众号：极市平台

作者：极市平台

链接：https://mp.weixin.qq.com/s/DxYqWvzGzP3Xslnx4HAK6Q

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

本文提出了一种新颖的模块iKUN，可以插入到任何多目标跟踪器之后，实现参考跟踪。为了解决一对多对应的问题，知识统一模块被设计为根据文本描述调节视觉嵌入。进一步提出了相似性校准方法，通过在开放测试集中估计的伪频率来细化预测得分。

0. 论文信息

标题：iKUN: Speak to Trackers without Retraining

作者：Yunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su

机构：北京邮电大学人工智能学院、中国网络系统与网络文化北京重点实验室、中国北京文化和旅游部互动技术与体验系统重点实验室

原文链接：https://arxiv.org/abs/2312.16245

代码链接：https://github.com/dyhBUPT/iKUN

1. 这篇文章干了啥？

传统的多目标跟踪（MOT）任务旨在逐帧跟踪所有特定类别的对象，这在视频理解中起着至关重要的作用。尽管已经取得了重大进展，但它存在着灵活性和泛化能力差的问题。为了解决这个问题，最近提出了参考多目标跟踪（RMOT）任务，其核心思想是通过语言描述指导多目标跟踪。例如，如果我们将"左侧有移动的汽车"作为查询输入，跟踪器将预测与描述相对应的所有轨迹。然而，由于灵活性的高代价，模型需要同时执行检测、关联和引用，因此，平衡子任务之间的优化成为一个关键问题。

为了完成这项任务，现有方法（例如TransRMOT）简单地将文本模块集成到现有的跟踪器中。然而，这种框架有几个固有的缺点：i）任务竞争。一些MOT方法已经揭示了检测和关联之间的优化竞争。在RMOT中，添加的引用子任务将进一步加剧这个问题。ii）工程成本。每当我们想要替换基线跟踪器时，我们需要重写代码并重新训练整个框架。iii）训练成本。联合训练所有子任务会导致高计算成本。

实质上，跟踪和引用子任务的紧密捆绑是这些限制的主要原因。这引发了一个自然的问题："是否可能解耦这两个子任务？"。这项工作提出了一个"跟踪到引用"的框架，其中插入了一个名为iKUN的模块，它首先跟踪所有候选对象，然后根据语言描述识别查询对象，跟踪器在训练时被冻结，优化过程可以专注于引用子任务。

因此，核心问题在于设计一个可插入的引用模块。直观的选择是预训练在超过4亿个图像文本对上进行对比学习的CLIP风格模块，它的主要优势是优秀的视觉概念和文本描述的对齐。为简单起见，CLIP的视觉和文本流是独立的。这意味着对于给定的视觉输入，CLIP将提取一个固定的视觉特征，而不考虑文本输入。然而，在RMOT任务中，一个轨迹通常对应于多个描述，包括颜色、位置、状态等。很难将单个特征与多种特征匹配起来。受到这一观察的启发，作者设计了一个知识统一模块（KUM），以自适应地根据文本指导提取视觉特征。此外，为了减轻描述的长尾分布的影响，提出了一种测试时间相似性校准方法，以改进引用结果。其主要思想是估计开放测试集中描述的伪频率，并使用它们来修正引用得分。

对于跟踪子任务，卡尔曼滤波器被广泛用于运动建模。过程噪声和观测噪声是两个影响预测和更新步骤准确性的关键变量。然而，作为手工设计的模块，这两个变量由预设参数确定，并且难以适应运动状态的变化。作者通过设计一个名为NKF的神经版本的卡尔曼滤波器来解决这个问题，该滤波器动态估计过程和观测噪声。

作者在最近发布的Refer-KITTI [37]数据集上进行了大量实验，iKUN显示出明显优势，超过了现有解决方案。具体来说，iKUN在HOTA上超过了之前的SOTA方法TransRMOT 10.78%，在MOTA上超过了3.17%，在IDF1上超过了7.65%。还在KITTI和DanceTrack上进行了传统MOT任务的实验，提出的NKF相比基线跟踪器实现了明显改善。为了进一步验证iKUN的有效性，通过向DanceTrack添加语言描述，贡献了一个更具挑战性的RMOT数据集Refer-Dance。iKUN比TransRMOT取得了显著改善，即HOTA为29.06%对9.58%。

下面一起来阅读一下这项工作~

2. 摘要

参考多目标跟踪（RMOT）旨在基于输入的文本描述跟踪多个对象。以往的研究通过简单地将额外的文本模块集成到多目标跟踪器中来实现它。然而，它们通常需要重新训练整个框架，并且在优化方面存在困难。在这项工作中，我们提出了一种可插入的知识统一网络，称为iKUN，以实现与现成跟踪器的即插即用通信。具体地，设计了一个知识统一模块（KUM），以自适应方式根据文本指导提取视觉特征。同时，为了提高定位精度，我们提出了一种神经版本的卡尔曼滤波器（NKF），以根据当前运动状态动态调整过程噪声和观测噪声。此外，为了解决文本描述的开放式长尾分布问题，提出了一种测试时间相似性校准方法，以伪频率来优化置信度分数。在Refer-KITTI数据集上进行了大量实验，验证了我们框架的有效性。最后，为了加快RMOT的发展，我们还通过扩展公开的DanceTrack数据集，增加了运动和着装描述，贡献了一个更具挑战性的数据集Refer-Dance。

3. 效果展示

与先前的RMOT框架进行比较，以及iKUN。(a) 先前的方法将引用模块纳入多目标跟踪器中，需要重新训练整体框架。(b) 相反， iKUN可以直接插入现成的跟踪器之后，在训练时跟踪器被冻结。

KUM的动机。给定一个轨迹和一组描述，(a) 在没有来自文本流的指导的情况下，要求视觉编码器输出一个单一特征以匹配多个文本特征；(b) 有文本指导时，视觉编码器可以为每个描述预测自适应特征。

4. 基本原理是啥？

iKUN的总体框架。视觉流首先嵌入本地对象特征flocal和全局场景特征fglobal，然后使用知识统一模块（KUM）对它们进行聚合。紧随其后的是一个时间模型和一个视觉头，用于生成最终的视觉特征fv。与此同时，文本流对文本特征ft进行编码。最后，使用逻辑头来预测fv和ft之间的相似度得分。

知识统一模块的三种设计。特征图的形状显示为它们的张量形状，批量大小为B。为了清晰起见，这里省略了最终的空间全局平均池化操作。

5. 实验结果

Refer-KITTI。当前的SOTA方法，TransRMOT分别获得了38.06％、29.28％、50.83％的HOTA、DetA、AssA。相比之下，将iKUN集成到基于YOLOv8的各种现成跟踪器中，并取得了一致的改进，即41.25％至44.56％的HOTA。通过切换到与TransRMOT相同的检测器，即DeformableDETR，分别获得了48.84％、35.74％、66.80％的HOTA、DetA、AssA。重要的是，由于框架的灵活性，iKUN只需针对多个跟踪器进行一次训练。

此外，为了专注于关联和指代能力的比较，进行了oracle实验，以消除定位准确度的干扰。也就是说，根据地面实况修正了最终估计轨迹的坐标（x，y，w，h）。请注意，没有添加或删除边界框，也没有修改ID。在这种设置下，iKUN与TransRMOT相比也表现出色，即61.54％对54.50％的HOTA。

KITTI。在表2中将设计的NeuralSORT与KITTI上的当前SOTA跟踪器进行比较。所有跟踪器都利用了来自YOLOv8的相同检测结果。为简单起见，使用了与Refer-KITTI相同的数据分割协议。结果表明，NeuralSORT在汽车和行人类别上均取得了最佳结果。

消融实验。

知识统一模块。在表3中比较了KUM的三种设计。结果表明，所有这些策略都可以显著改善基准方法，这证明了文本指导机制的有效性。具体而言，"文本优先调制"实现了最佳的关联性能（AssA），但在检测方面表现不佳（DetA）。"交叉相关"获得了更高的DetA，但更低的AssA。"级联注意力"在HOTA和DetA指标上取得了最佳结果，并且在AssA指标上是可比的。最后，选择"级联注意力"作为KUM的默认设计。

相似性校准。在表5中研究了映射函数f(·)中超参数a、b的影响。据报道，性能对变化的值具有鲁棒性。在这项工作中，选择a = 8和b = -0.1作为默认值，这带来了0.81％HOTA和2.09％AssA的性能增益。

神经卡尔曼滤波器。首先以DeepSORT为基准，研究了NeuralSORT在KITTI上的不同组件在表4中的影响。最重要的是，对于汽车和行人，NKF将HOTA分别提高了1.32％和3.50％。其他技巧进一步为汽车和行人带来了1.58％和1.94％的增益。然后，我们以ByteTrack为基准，进一步研究了NKF在KITTI和Dance-Track上的影响。可以看到，在这两个数据集上的所有评估指标都有显著改善。

训练和推理时间。在Refer-KITTI上使用多个Tesla T4 GPU进行实验，并在表7中比较了TransRMOT和iKUN的训练和推理时间。可以观察到iKUN的时间成本要低得多。请注意，为了公平比较，跟踪过程也包括在推理时间内。

6. 总结

这项工作提出了一种新颖的模块，iKUN，可以插入到任何多目标跟踪器之后，实现参考跟踪。为了解决一对多对应的问题，知识统一模块被设计为根据文本描述调节视觉嵌入。进一步提出了相似性校准方法，通过在开放测试集中估计的伪频率来细化预测得分。此外，还引入了两个轻量级神经网络到卡尔曼滤波器中，动态更新过程和观测噪声变量。iKUN的有效性通过在公开数据集Refer-KITTI和新构建的数据集Refer-Dance上的实验得到了证明。