CVPR2022论文速递（2022.4.27）！共4篇！3D目标检测，代码开源！-轻识

整理：AI算法与图像处理

CVPR2022论文和代码整理：https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo

欢迎关注公众号 AI算法与图像处理，获取更多干货：

大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分类,方便不同方向的小伙伴挑选自己感兴趣的论文哈

欢迎大家留言其他想法, 合适的话会采纳哈! 求个三连支持一波哈

Updated on : 27 Apr 2022

total number : 4

Focal Sparse Convolutional Networks for 3D Object Detection

论文/Paper: http://arxiv.org/pdf/2204.12463
代码/Code: http://github.com/dvlab-research/FocalsConv

摘要：

非均匀 3D 稀疏数据，例如不同空间位置的点云或体素，以不同方式对 3D 目标检测任务做出贡献。稀疏卷积网络 (Sparse CNN) 中的现有基本组件处理所有稀疏数据，无论是常规还是子流形稀疏卷积。在本文中，我们介绍了两个新模块来增强 Sparse CNN 的能力，它们都基于通过位置重要性预测使特征稀疏性可学习。它们是Focal 稀疏卷积（Focals Conv）及其融合的焦点稀疏卷积的多模态变体，简称Focals Conv-F。新模块可以很容易地替换现有稀疏 CNN 中的普通模块，并以端到端的方式进行联合训练。我们首次表明，稀疏卷积中的空间可学习稀疏性对于复杂的 3D 对象检测至关重要。在 KITTI、nuScenes 和 Waymo 基准上进行的大量实验验证了我们方法的有效性。没有花里胡哨，我们的结果在论文提交时优于 nuScenes 测试基准上所有现有的单模型条目。

Context-Aware Sequence Alignment using 4D Skeletal Augmentation

论文/Paper: http://arxiv.org/pdf/2204.12223
代码/Code: None

摘要：

视频中细粒度人类动作的时间对齐对于计算机视觉、机器人和混合现实中的众多应用非常重要。最先进的方法通过利用强大的深度卷积神经网络直接学习基于图像的嵌入空间。虽然直截了当，但他们的结果远不能令人满意，对齐的视频表现出严重的时间不连续性，而无需额外的后处理步骤。人体和手部姿势估计在野外的最新进展为解决视频中人类动作对齐任务提供了新的方法。在这项工作中，基于现成的人体姿势估计器，我们提出了一种新颖的上下文感知自我监督学习架构来对齐动作序列。我们将其命名为 CASA。具体来说，CASA 采用自我注意和交叉注意机制来结合人类行为的时空上下文，可以解决时间不连续性问题。此外，我们引入了一种自监督学习方案，该方案由用于 3D 骨架表示的新型 4D 增强技术提供支持。我们系统地评估了我们方法的关键组成部分。我们在三个公共数据集上的实验表明，与之前最先进的方法相比，CASA 显着提高了阶段进度和 Kendall 的 Tau 分数。

ClothFormer:Taming Video Virtual Try-on in All Module

论文/Paper: http://arxiv.org/pdf/2204.12151
代码/Code: None

摘要：

视频虚拟试穿的任务旨在将目标服装与视频中的人进行时空一致性。尽管图像虚拟试穿取得了巨大进步，但它们在应用于视频时会导致帧之间的不一致。有限的工作还探索了基于视频的虚拟试穿任务，但未能产生视觉上令人愉悦和时间连贯的结果。此外，还有另外两个关键挑战：1）如何在服装区域出现遮挡时生成准确的翘曲；2）如何生成与复杂背景相协调的衣服和非目标身体部位（例如手臂、脖子）；为了解决这些问题，我们提出了一种新颖的视频虚拟试穿框架ClothFormer，它成功地在复杂环境中合成了逼真、和谐、时空一致的结果。特别是，ClothFormer 涉及三个主要模块。首先，一个两阶段的反遮挡变形模块，可预测身体区域和服装区域之间的准确密集流映射。其次，外观流跟踪模块利用岭回归和光流校正来平滑密集流序列并生成时间上平滑的翘曲服装序列。第三，双流transformer提取并融合服装纹理、人物特征和环境信息，以生成逼真的试穿视频。通过严格的实验，我们证明我们的方法在质量和数量上都大大超过了合成视频质量的基线。

DArch: Dental Arch Prior-assisted 3D Tooth Instance Segmentation

论文/Paper: http://arxiv.org/pdf/2204.11911
代码/Code: None

摘要：

3D 牙科模型上的自动牙齿实例分割是计算机辅助正畸治疗的一项基本任务。现有的基于学习的方法严重依赖昂贵的逐点注释。为了缓解这个问题，我们率先探索了一种用于 3D 牙齿实例分割的低成本注释方式，即为每个牙齿模型标记所有牙齿质心和仅几颗牙齿。针对仅提供弱注释时的挑战，我们提出了一种牙弓先验辅助 3D 牙齿分割方法，即 DArch。我们的 DArch 由两个阶段组成，包括牙齿质心检测和牙齿实例分割。准确检测牙齿质心可以帮助定位单个牙齿，从而有利于分割。因此，我们的 DArch 建议在协助检测之前利用牙弓。具体来说，我们首先提出了一种从粗到精的方法来估计牙弓，其中牙弓最初由贝塞尔曲线回归生成，然后训练基于图的卷积网络（GCN）对其进行细化。通过估计的牙弓，我们提出了一种新的牙弓感知点采样 (APS) 方法来帮助生成牙齿质心建议。同时，分割器使用基于补丁的训练策略进行独立训练，旨在从以牙齿质心为中心的 3D 补丁中分割牙齿实例。4,773 个牙科模型的实验结果表明，我们的 DArch 可以准确分割牙科模型的每颗牙齿，其性能优于最先进的方法。