↑ 点击蓝字关注极市平台

作者丨R

来源丨旷视研究院

编辑丨极市平台

极市导读

日前，CVPR 2021论文接收情况正式出炉。此次，旷视研究院共入选论文22篇，其中Oral论文2篇，研究领域涵盖激活函数、神经网络、神经网络架构搜索、光流估计、无监督学习、人体姿态估计、目标检测等。>>加入极市CV技术交流群，走在计算机视觉的最前沿

日前，CVPR 2021论文接收情况正式出炉。此次，旷视研究院共入选论文22篇，其中Oral论文2篇，研究领域涵盖激活函数、神经网络、神经网络架构搜索、光流估计、无监督学习、人体姿态估计、目标检测等。

据官方消息，本届大会大约接收到7015篇有效投稿，其中有5900篇进入了决策流程，最终共1663篇论文被接收，接收率约为23.7%。与CVPR 2020相比，今年的有效投稿率和接收率都有所上升。

在恭喜旷厂小伙伴喜提中选的同时，为了帮大家第一时间查阅所关注领域的研究成果，我们整理了此次旷视研究院入选论文的摘要精选，并将分上下期与大家分享，本篇为上期。

01 Neural Architecture Search with Random Labels

现有的主流NAS算法通过子网络在验证集上的预测性能来进行模型搜索，但是在参数共享机制下，验证集上的预测性能和模型真实性能存在较大的差异。我们首次打破了这种基于预测性能进行模型评估的范式，从模型收敛速度的角度来进行子网络评估并假设：模型收敛速度越快，其对应的预测性能越高。

基于模型收敛性框架，我们发现模型收敛性与图像真实标签无关，便进一步提出使用随机标签进行超网络训练的新NAS范式-RLNAS。RLNAS在多个数据集（NAS-Bench-201，ImageNet）以及多个搜索空间（DARTS，MobileNet-like）进行了验证，实验结果表明RLNAS仅使用随机标签搜索出来的结构便能达到现有的NAS SOTA的水平。RLNAS初听比较反直觉，但其出乎意料的好结果为NAS社区提出了一组更强的基线，同时也进一步启发了对NAS本质的思考。

👉关键词：神经网络架构搜索，模型收敛性假设，随机标签

https://arxiv.org/abs/2101.11834

02 Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation

目前人体姿态估计算法都是使用的热力图回归来得到最后的关节点。这些方法通常使用固定标准差的二维高斯核覆盖所有骨架关键点来构造真实热力图，并使用真实热力图来监督模型。由于不同人的关节点的真实热力图都是使用同一高斯核来构造，所以这一方法没有考虑不同人的尺度区别，会造成标签的歧义性，影响模型效果。

本论文提出了一种尺度自适应热力图回归，可以根据人体大小自适应生成构造标签所需的标准差，从而使得模型对不同尺度的人体更加鲁棒；并提出权重自适应回归平衡正负样本，进一步挖掘尺度自适应热力图回归效果。本论文最终在自底向上人体姿态估计中取得了目前最先进性能。

👉关键词：人体姿态估计、自底向上、自适应热力图回归

https://arxiv.org/abs/2012.15175

https://github.com/greatlog/SWAHR-HumanPose

03 General Instance Distillation for Object Detection

GID提出了一种基于检测任务的新型蒸馏方法。通过从teacher和studnet中分别提取general instance (GI)，并提出GISM模块自适应选择差异大的instance进行feature-based、relation-based以及response-based蒸馏。本方法首次将关系型知识蒸馏应用于检测框架，且将蒸馏目标从独立考虑的正负样本蒸馏统一为更本质GI蒸馏，过程中不依赖于GT，且达到SOTA。

👉关键词：目标检测，知识蒸馏

https://arxiv.org/abs/2103.02340

04 Activate or Not: Learning Customized Activation

我们提出一种新的激活函数ACON (activate or not)，可以自适应地学习激活与否。ACON建立了ReLU和Swish的联系：我们发现虽然两者形式很不一样，但Swish是ReLU的一种平滑形式。基于这个发现，我们进而提出更多变体，如meta-acon，相比于SENet取得了两倍的无cost涨点。我们在多个任务上验证了这个简洁有效的激活函数的泛化性能。

👉关键词：激活函数、神经网络

https://arxiv.org/abs/2009.04759

05 You Only Look One-level Feature

在本文中，我们首先分析了FPN在单阶段检测器RetinaNet中的作用，通过实验发现FPN中将不同尺度的物体分配到不同层级检测的分治思想对检测结果影响很大。从优化角度来说，该思想将检测中的优化问题分解，使得优化学习变得更为简单，提高了检测精度。然而，FPN基于多层级特征的设计使得检测方法的网络结构变得复杂、引入了额外的计算量、并且拖慢了检测的速度。为了避免上述几个问题，本文提出在单层级上对所有尺度的物体进行检测；同时，针对单层级特征检测中难以优化的问题，提出了空洞编码器与均衡匹配的解决方案。

本文提出的基于单层级特征的检测器YOLOF，在只使用C5特征的情况下，其检测精度也能与基于FPN的RetinaNet相当，同时检测速度是RetinaNet的2.5倍。另外，与同样只使用C5特征的DETR相比，YOLOF能在收敛速度更快的情况下（7x）达到与之相当的性能。

👉关键词：单阶段目标检测、单尺度特征、检测速度与精度平衡

https://arxiv.org/abs/2103.09460

https://github.com/megvii-model/YOLOF

06 Points as Queries: Weakly Semi-supervised Object Detection by Points

在不增加标注成本的条件下，提升检测器的性能，是本文研究的目标。本文选择少量边界框辅以大量点标注的方式训练检测器。选择点标注是因其信息丰富：包含实例的位置和类别信息，同时标注成本低。本文通过将点编码器扩展至DETR的方式，提出Point DETR，整体框架为：通过边界框数据训练Point DETR；将点标注编码为查询，预测伪框；通过边界框和伪框数据，训练学生模型。在COCO数据集上，仅使用20%完全标注的数据，我们的检测器可达33.3AP，超过基线2.0AP。

👉关键词：目标检测，半监督，弱监督

07 Practical Wide-Angle Portraits Correction with Deep Structured Models

广角镜头因其广阔的视野而备受喜爱，但存在镜头畸变和透视失真问题，表现为背景线条弯曲、人脸拉伸挤压倾斜等。为此，本文构建了一个由线校正网络，人脸校正网络和过渡模块组成的级联去畸变网络，使得背景呈现透视投影而人脸区域呈现立体投影，并且在两个区域平滑过渡，从而在保持FOV的同时消除各种畸变。本方法不需要相机参数，可达到实时，定性和定量评估均超越了现有方法。

👉关键词：广角人像畸变校正，深度级联网络

08 UPFlow:Upsampling Pyramid for Unsupervised Optical Flow Learning

我们提出了一种新的无监督光流学习方法UPFlow。我们发现目前的无监督光流方法在多尺度金字塔处理中有两个问题：flow上采样过程中存在插值模糊的问题和多尺度flow缺乏监督的问题。对此，我们提出来一种自引导的上采样模块，利用了一个插值flow和一个插值map来改变上采样插值的机制，从而实现了更加精细的上采样。另外，我们提出来将网络的最终输出结果作为伪标签来监督多尺度flow的学习。基于这些改进，我们的方法能够得到更加清晰、锐利的光流结果。我们在多个光流基准数据集上进行了实验，包括Sintel、KITTI 2012和KITTI 2015。UPFlow的性能比目前最好的无监督光流算法超出了约20%。

👉关键词：光流估计、无监督学习

https://arxiv.org/abs/2012.00212

09 NBNet: Noise Basis Learning for Image Denoising with Subspace Projection

NBNet是一种解决图像降噪问题的框架。我们以一种新颖的观点来解决这个问题：图像自适应的投影。具体来说，我们学习一组特征空间上的子空间，图像降噪可以通过选择合适的信号子空间并往该子空间上投影来完成。相比于以往一卷到底的网络结构，NBNet通过投影，能自然且更高效地提取和利用图像中的结构信息，特别是弱纹理区域，以此来帮助我们复原图像。通过这样简单的方式，NBNet以更少的计算量在DND和SIDD两个benchmark上拿到了SOTA。

👉关键词：图像降噪，子空间

https://arxiv.org/abs/2012.15028

10 Dynamic Metric Learning: Towards a Scalable Metric Space to Accommodate Multiple Semantic Scales

该工作将度量学中一个重要的属性“动态范围”引入到深度度量学习，从而得到一个新的任务叫做“动态度量学习”。我们发现，以往的深度度量其实只蕴含一个刻度，例如仅仅区分人脸、行人是相似还是不相似。这样的量具无论多精确，在实际使用中都是灵活不足、用途有限的。实际上，我们日常的量具通常具有动态范围，例如尺子总是有多个刻度（例如1mm、1cm乃至10cm）来测量不同尺度的物体。我们认为，深度度量学习领域已经到了需要引入动态范围的时候了。因为，视觉概念本身就有着不同的大小，“动物”、“植物”都对应大尺度，而“麋鹿”却对应相对较小的尺度。在小尺度下，两只麋鹿可能看上去很不一样，但是在另一个大尺度下，同样两只麋鹿却应该被认为非常相似。