APS：大型多模态室内摄像机定位系统-轻识

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

在没有gps信号的封闭区域内进行导航是一项极具挑战性的任务。为了解决这一问题，近年来基于图像的方法引起了许多研究者的关注。这些方法要么提取特征(如使用SIFT，或SOSNet)，并将描述性的特征映射到相机的位置和旋转信息，要么部署一个端到端系统，直接从RGB图像中估计这些信息，类似于PoseNet。前一种方法在测试过程中计算量大，后一种方法对环境变化和物体运动缺乏准确性和鲁棒性。然而，端到端系统在测试和推断过程中非常快，并且非常适合实际应用程序，尽管它们的训练阶段可能比以前的要长。摘要小说多end-toend提出了大规模的室内定位系统,即APS(α定位系统),集Pix2Pix GAN网络重建输入的点云对查询图像,与深CNN网络以强劲估计相机的位置和旋转信息。在这种集成中，现有的数据集存在室内环境下成对RGB/点云图像的缺点。因此，作者创建了一个新的数据集来处理这种情况。通过实施提出的APS系统，作者可以实现高精度的相机定位，精度水平低于一厘米。

论文创新点

本文在[6,7]的基础上，提出了一种端到端深度神经网络系统，该系统一方面包含特定场景的RGB数据，另一方面包含与之对应的点云数据;然后集成他们，并提供相机位置和四元数估计与高精度。此外，与icp -net相比，该系统对图像部分遮挡、光照变化等环境变化具有鲁棒性。

框架结构

整个提出的APS工艺流程图

基于EfficientNet-B0 CNN的场景分类器。输入:RGB数据;输出:场景数量有关。

一种新的多模态回归因子CNNs。左侧路径仅在GAN输出获得的pointcloud数据上进行训练;只对RGB数据正确路径。

实验结果

通过插入掩模和在左上角的参考图像上完全滑动来增加数据。

使用对象插入来创建测试样本，以遮挡和屏蔽视图模式，以测试模型对屏蔽效果的鲁棒性。(上)场景的大视图，(下)从左到右:由于物体遮挡不同的相机视图和掩蔽模式。

结论

本文提出了一种端到端系统来解决室内定位问题。这项工作改进了之前提出的系统，即icp -net和激光雷达icp -net。由于背景中存在动态对象，ICPS-net具有较强的抗环境变化能力。激光雷达icp -net具有数据生成简单、抗输入变化能力强等优点。然而，它缺乏精确性。另一个创新是使用Pix2Pix GAN生成点云数据，这可以通过生成分布接近数据集的图像来帮助数据增强。虽然新的数据可以防止模型过拟合，但当输入的RGB图像被遮挡和遮挡时，它有助于提供鲁棒的点云数据。第三种新颖的是多模态CNN，它融合了两个独立的CNN模型，在回归精度和收敛能力方面都优于它们。笛卡尔坐标和四元数估计，相对于SOTA有了显著的改进。该模型的新颖之处简化了系统在各种应用中的利用，如大型建筑、商场、隧道和AR/VR应用。

论文链接：https://arxiv.org/pdf/2102.04139.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~