上汽零束 | NeRO: 基于隐式神经网络的道路重建-轻识

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

本次分享我们邀请到了上汽零束公司智能云平台算法工程师王瑞博，为大家详细介绍他们的工作：NeRO.如果您有相关工作需要分享，欢迎文末联系我们

NeRO: Neural Road Surface Reconstruction
代码：https://github.com/ToeleoT/NeRO
论文：https://arxiv.org/pdf/2405.10554

直播信息

时间

2024年6月20日(周四)晚上20：00

主题

上汽零束|NeRO: 基于隐式神经网络的道路重建

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3DCV视频号也将同步直播

嘉宾介绍

王瑞博

上汽零束公司智能云平台算法工程师。工作方向为神经渲染及大模型相关工作。

直播大纲

道路重建现有方法简介
NeRO论文详解

参与方式

摘要

在2021年的Tesla AI day上，Tesla介绍了一种隐式道路重建方法。

在后续工作中，RoME和EMIE-MAP等方法使用显式和隐式结合的方法来进行道路重建。我们提出了NeRO，一种隐式神经道路重建方法，我们的方法可能与特斯拉的方法最为接近。我们介绍了一种基于位置编码多层感知机（MLPs）的道路表面重建方法，用以表示道路表面，输入为世界坐标x和y，输出为高度、颜色和语义信息。我们已经验证了我们的架构在不同输入源下的道路高度重建性能，例如车辆摄像头姿态、SFM点云和激光雷达点云。我们还测试了它重建坡度的能力（使用方波作为替代）以及它补全稀疏点云输入或不完整路面信息的能力。此外，我们验证了我们架构对语义噪声的鲁棒性。实验表明，通过聚合多帧、多视角的语义信息，可以在一定程度上优化单帧图像中的语义噪声，这有助于提高4D道路表面标记的准确性。

方法

NeRO将世界坐标系统中的x和y坐标，X = (x, y)，作为输入。在进入网络层之前，我们的输入X被规范化到[-1,1]之间，以便于编码方法的计算。我们将规范化后的输入X′送入位置编码函数，我们使用postional encoding或mutiresolution hash encoding的方法进行编码，然后从位置编码方法得到的输出由三个不同的多层感知机（MLPs）处理，分别输出道路表面高度z，颜色输出c = (r, g, b)和语义输出s。

我们分别对高度，颜色和语义进行重建。

1.在高度重建中我们使用来自三个来源的地面真实高度：车辆摄像头姿态、激光雷达点云和SfM点云。在车辆摄像头姿态中，假设相应姿态附近的地面是平坦的，每个姿态将采样一定区域内的长度*宽度的点，以形成伪点云。编码方法中的不同表示将影响高度值的结果。
2.在颜色重建中，我们为每个姿态采样数百万个二维世界坐标作为网络输入X=(x, y)。然后，我们使用这些坐标通过完整学习的高度网络和颜色网络分别获得高度z和颜色。之后，我们将道路表面高度z与X=(x,y)结合，以获得三维世界坐标W=(x,y,z)，然后通过摄像头的外部和内部参数将它们投影到像素坐标系统(u,v)，以获取相应的真实像素颜色c′来优化网络输出颜色c。
3.在语义重建中我们从编码方法中得到的网络语义输出s用于为网络输入X=(x,y)渲染语义信息，该输入使用与颜色重建相同的方法来获取真实语义s′。最终结果如下图所示：

实验

NeRO首先测试了在不平整和有缺口的数据集中的效果：

我们使用KITTI-odometry sequence 00数据集来验证我们的结果在不同数据来源的结果，使用了PSNR指标显示重建性能，使用mIoU表示语义能力。

下面表明我们方法在稀疏标签的情况下的效果

下面是去噪方面的能力

数据

相关KITTI-odometry数据来源自https://www.cvlibs.net/datasets/kitti/eval_odometry.php

语义数据由Mask2Frormer with Swin-L生成

SfMs数据由colmap生成

注：本次分享我们邀请到了上汽零束公司智能云平台算法工程师王瑞博，为大家详细介绍他们的工作：NeRO.如果您有相关工作需要分享，欢迎联系：cv3d008