微软提出:体检测器Head的统一注意力框架 Dynamic Head

AI算法与图像处理

共 1845字,需浏览 4分钟

 ·

2021-07-14 19:34

点击下方AI算法与图像处理”,一起进步!

重磅干货,第一时间送达


导读

来自微软,在一个框架中集成了尺度注意力,空间注意力和通道注意力。

论文链接:https://arxiv.org/abs/2106.08322


论文链接:https://arxiv.org/abs/2106.08322

摘要:这篇文章提出了Dynamic Head的框架,将物体检测头和注意力机制整合到了一起。使用这种框架,可以在不同尺度的特征层之间做注意力,可以在空间范围内做空间注意力,可以在输出通道之间做任务的注意力。在不增加计算的情况下,该方法显著提升了目标检测头的表达能力。

1. 介绍

好的物体检测head的特点:1、要和尺度相关,2、要和空间相关,3、要任务相关。这篇文章中提出了一个统一的框架,把这三点统一到了一起。我们把backbone的输出看成是3位的张量,level x shape x channel,我们发现可以统一到注意力的问题上。方案就是构建一个全方位的注意力机制,但是代价太大。

但是,我们可以在每个单独的维度上分别去做注意力,level-wise,spatial-wise和channel-wise。尺度的注意力只在level维度上做,空间注意力只在shape维度上做,任务注意力只在channel维度上做。

这样,我们可以为检测head构建一个统一的注意力机制,可以为head提供更好的表达能力。在各种物体检测的模型上都可以有1.2%~3.2%的提升。

2. 方法

2.1 动机

从特征金字塔中,我们可以得到L个不同level的特征图,我们通过上采样和下采样,可以将这些不同level的特征图缩放到中间的尺度上,然后拼接在一起。然后可以得到一个4维的张量,维度为LxHxWxC,其中,L表示L个不同的level,H,W表示特征图的宽和高,C表示通道数量。我们进一步定义S=HxW,然后将这个张量reshape成LxSxC的3维张量。在这种表达方式下,可以进一步研究各个维度的作用。

2.2 Dynamic Head

基于上面的张量,自注意力可以表示为:

这里是注意力函数,最简单的就是全连接层,但是这样代价太大。于是,我们在3个维度上分别做注意力:

尺度注意力

这里是一个线性函数,用1x1的卷积来近似,

空间注意力

由于在S维度上,维数很高,我们将这个模块分解为两个步骤,先用可变卷积学习稀疏的空间注意力,然后在同样的位置上,对不同level的特征进行集成。

任务注意力

动态的对通道进行开关,来适应不同的任务。

其中Fc是第c个通道的特征切片,是超参数,用来学习激活的阈值。和(3)类似,先在LxS维度上做全局的池化,然后用2个全连接和1个归一化层,最后用shifted sigmoid归一化到[-1, 1]。

总体结构体如下:

2.3 用到已有的检测器中

一阶段检测器

用这个统一的模块来代替原来的多分支。

二阶段检测器:

在ROI Pooling之前使用尺度和空间的注意力,在ROI Pooling之后使用通道注意力。

3. 实验

3.1 实现细节

主干网络为ResNet50,检测框架为ATSS,初始学习率0.02,使用了多尺度的infer。

3.2 消融实验

动态head的有效性的实验

动态head的不同深度的实验

用在不同物体检测器上的实验

和最先进的物体检测器的对比:


END

论文链接:https://arxiv.org/abs/2106.08322


努力分享优质的计算机视觉相关内容,欢迎关注:

个人微信(如果没有备注不拉群!
请注明:地区+学校/企业+研究方向+昵称



下载1:何恺明顶会分享


AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析


下载2:终身受益的编程指南:Google编程风格指南


AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!



下载3 CVPR2021

AI算法与图像处公众号后台回复:CVPR即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮 只需一秒,我却能开心一天



浏览 47
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报