点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
3D物体检测是自动驾驶的一项重要技术,KITTI提供了一种用于训练和评估不同的3D对象检测器的性能的标准化数据集。在这里,我们使用来自KITTI的数据来总结和突出3D对象检测方案中的优劣,这些方案通常可以分为使用LIDAR和使用LIDAR + Image(RGB)。
CNN用于2D对象检测和分类的机器已经成熟。但是,用于自动驾驶的3D对象检测带来至少两个独特的挑战:
几个3 d的检测方法已通过离散化LIDAR点云成3D体素网格和解决的第一个问题中应用3D卷积。但是,与2D卷积相比,3D卷积具有更大的计算成本并因此具有更高的延迟。或者,可以在自顶向下的鸟瞰图(BEV)或激光雷达的本机范围视图(RV)中将点云投影到2D图像。优点是可以通过更快的2D卷积有效地处理投影图像,从而降低延迟。
我们从KITTI BEV中选择了一些方法,以突出显示RV,BEV和在体素功能上运行的方法之间的一些优劣。该图显示了检测器延迟(ms)与车辆AP的关系:
检测器(仅LIDAR)延迟与车辆AP
可得到如下结果:
BEV投影保留了物体的大小和距离,为学习提供了强大的先决条件。
Z轴被视为2D卷积的特征通道。
地面高度可用于展平Z轴上的点(例如HDNet),从而减轻由于道路坡度而引起的平移差异的影响。
具有学习功能(PointNet)的BEV可以整合Z轴,从而获得强大的性能。
SECOND通过体素特征编码层和稀疏卷积来实现此目的;
SECOND(v1.5)的新版本报告了更好的AP(86.6%)和低延迟(40ms)。
PointPillars在Z轴支柱上应用了简化的PointNet,从而产生了2D BEV图像,该图像被馈送到2D CNN中。
RV投影会因距离而发生遮挡和物体大小变化。
在KITTI的7.5k帧序列数据集上, RV检测器(例如LaserNet)的性能落后于BEV检测器。
但是, LaserNet在1.2M帧ATG4D数据集上的性能与BEV检测器 (例如HDNet)相当。
RV投影具有低延迟(例如LaserNet),这可能是由于相对于稀疏BEV的RV表示密集。
VoxelNet率先使用了体素功能,但由于3D卷积而遭受高延迟。
较新的方法(例如SECOND)可以使用相同的体素特征编码层,但是避免使用稀疏卷积来减少延迟的3D卷积。
LIDAR + RGB融合改善了3D检测性能,特别是对于LIDAR数据经常稀疏的较小物体(例如行人)或远距离(>50m-70m)而言。下面总结了一些融合方法。基于提议的方法以RGB(例如F-Pointnet)或BEV(例如MV3D)生成对象提议。密集融合方法将LIDAR和RGB特征直接融合到一个普通的投影中,并且通常以各种分辨率进行融合。
LIDAR + RGB融合的一般方法。图像改编自MV3D(Chen等人,2016),F-Pointnet(Qi等人,2017),ContFuse(Liang等人,2018)和LaserNet(Meyer等人,2018)。