SMCA:加快DETR收敛

极市平台

共 2283字,需浏览 5分钟

 ·

2021-02-01 19:56

↑ 点击蓝字 关注极市平台

作者丨Smarter
来源丨Smarter
编辑丨极市平台

极市导读

 

本文先简单回顾了加快DETR的检测器是怎么做的,后介绍了Sparse R-CNN的结构及可视化,最后讲述了SMCA和Sparse R-CNN之间的联系--本质上就是拿更好的目标位置先验,帮助定位目标,提取目标context的信息。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

先简单回顾一下之前加快DETR收敛的检测器是怎么做的,Deformable DETR、TSP,另外还有一篇比较特殊的Sparse R-CNN,后面会聊一下SMCA和Sparse R-CNN之间的联系。
Deformable DETR通过采样的稀疏性来加快DETR的收敛速度,详细的可以看之前的文章,TSP通过去掉decoder,将FCOS/R-CNN和DETR组合,来加快DETR的收敛速度,而Sparse R-CNN虽然结构上跟DETR没有关系,但是思想上是通过将粗粒度的目标区域扣出来来加快收敛速度。
SMCA提出通过动态预测一个类似于2D的空间高斯weight map,来跟co-attention feature maps相乘来达到加快收敛速度的目的。

SMCA

DETR的模型设计可以看之前的文章(计算机视觉"新"范式: Transformer),这里主要看一下Spatially Modulated Co-Attention(SMCA)部分。
Spatially Modulated Co-Attention
原来DETR的co-attention部分,将query和key计算相关性,然后和value相乘;而SMCA引入了空间先验,先预测目标的中心点和尺度,然后通过公式生成类高斯的weight map,然后将类高斯weight map和query/key的相关性map相乘得到modulated co-attention。具体的计算公式看paper。
multi-head和multi-scale刷点用的,比较常规,这里主要看一下可视化。
可视化
从可视化图片可以看出,DETR需要关注大量不太重要的区域,导致学出来的特征不够有代表性,学习难度增大,而SMCA引入了空间先验和多尺度后,不同尺度可以关注到不同尺度的特征,并且学出来的特征更加干净。


Sparse R-CNN

虽然Sparse R-CNN跳出了DETR的结构,但是思想上是一致的。通过Dynamic Conv(类似co-attention)的方式,从proposal features(和DETR中的object queries相似)中解码出目标。而Sparse R-CNN通过增加一个可学习的proposal boxes来获得粗粒度的目标位置,然后通过ROIAlign将粗粒度的目标扣出来,通过Dynamic Head逐级refine。

可视化

从refine的不同stage可以看出,Sparse R-CNN将扣出来的目标区域逐渐调整到了最合适的目标上。

SMCA跟Sparse R-CNN的联系

某种意义上来讲,SMCA和Sparse R-CNN的关系类似于CNN范式中FCOS和Faster-RCNN的关系,一个直接在global的feature上加先验,来达到快速收敛的目的,一个通过ROIAilgn的方式将目标feature扣出来来达到快速收敛的目的。本质上就是拿更好的目标位置先验,帮助定位目标,提取目标context的信息。现在又跟之前CNN时代一样,扣出来就是two-stage,不扣出来就是one-stage,历史是螺旋式上升的。
不管是CNN时代还是Transformer时代,对于目标检测这个task而言,我认为global信息是有用的,但是没有local信息性价比高,在local信息满足的情况下,global信息对于上限的提升也是有限的目标检测任务更趋近于object context的任务


Reference
[1] Fast Convergence of DETR with Spatially Modulated Co-Attention
[2] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

推荐阅读



添加极市小助手微信(ID : cvmart2),备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳),即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群:每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~
△长按添加极市小助手

△长按关注极市平台,获取最新CV干货

觉得有用麻烦给个在看啦~  
浏览 30
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报