自动驾驶算法与芯片设计
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3.3 基于融合的检测方法

如前所述,点云不提供纹理信息,而纹理信息对于对象检测和分类却非常有用。单目图像无法捕获深度值,而深度值对于准确的3D定位和尺寸估计是必需的。另外,随着与传感器的距离渐远,点云的密度会迅速降低,而图像仍可提供对远处车辆和物体的检测。为了提高整体性能,一些研究人员试图同时使用具有不同策略和融合方案的模式,即图像和点云相结合的模式。通常,融合方案有如下三种类型。

早期融合:在流程开始时,将模式进行组合,从而创建出依赖所有模式的新表示形式。

后期融合:在发生融合的最后阶段之前,将分别独立地处理每种模态。该类型不需要全部模态,因为它可以依赖单一模态的预测。

深度融合:在神经网络层中,分层地混合了模态,允许来自不同模态的特征在各层之间交互,从而产生更通用的融合方案。

Schlosser等人在论文[27]中评估了对3D行人检测不同阶段的融合,其模型考虑了两种输入:单目图像和深度框。他们得出的结论是:尽管可以使用早期融合,但是性能会下降,而使用后期融合可能会获得最佳性能。

一种融合策略是使用点云投影方法,即沿着投影的PCL映射,使用前置摄像头的额外RGB通道,以获得更高的检测性能。其中的两种方法[28-29]使用了3D区域提议网络,生成3D感兴趣区域,然后将其投影到特定视图,并用于预测类和3D边界框。

第一种方法是MV3D[28],使用了激光雷达鸟瞰图和前视点的投影,以及前置摄像头的RGB通道图像。网络由三个输入分支组成,每个输入分支都有一个基于VGG的特征提取器。仅基于鸟瞰图要素生成的3D提议,会被投影到每个视图的要素图,感兴趣区域合并层提取了与每个视图的分支相对应的要素。这些特定于提议的特征,以一种深度融合的方案进行汇总,其中特征图可以在各层之间交互。最后的图层输出了分类的结果和回归的3D边界框的精确顶点。作者研究了不同融合方案的性能,并得出结论:深度融合方案获得了最佳性能,这是因为其提供了更灵活的方法聚合来自不同模式的特征。

第二种方法是AVOD[29],这是在第一种方法中引入早期融合方案的方法,该方法将鸟瞰图和RGB通道合并以进行区域提议。其输入表示与MV3D相似,不过使用了鸟瞰图和图像输入分支。区域提议网络使用这两种方式的特征图,从而实现了较高的召回率。得分最高的区域提议被采样,并被投影到相应视图的特征图中。合并每种形式的提议的特定特征,并在全连接层输出类别分布和每个提议的精确的3D边界框。通常,在卷积阶段之后,丢失细节会阻止检测小物体。作者通过使用特征金字塔网络,对特征图进行上采样来规避这一问题。

另一种融合策略是使用单目图像获得2D候选图像,并将检测结果推广到采用点云数据的3D空间。

在融合类别中,Frustum PointNet[30]在具有单目图像的图像平面上生成区域提议,并使用点云执行分类和边界框回归。通过使用摄像机校准参数,将在图像平面上获得的2D边界框推广到3D空间,从而得到平截头体区域提议。他们首先选择每个视锥(Cone)所包围的点,并使用PointNet实例进行分段来消除背景混乱。然后将此集提供给第二个PointNet实例,以执行分类和3D边界框回归。

同样,Du等人[31]首先选择投影到图像平面时位于检测盒中的点,然后使用这些点进行模型拟合,从而得到初步的3D提议。该提议由两阶段的改进的CNN进行处理,该CNN输出最终的3D边界框和置信度分数。

使用这两种方法进行的检测,都受到有关单目图像的区域提议的约束,这可能是由光照条件等所导致的限制因素。基于融合的检测方法,通过探索来自多种传感器模态的补充信息来获得最新的检测结果。激光雷达点云可以在较远的位置提供稀疏和低点密度的准确的深度信息,而摄像机可以提供对类别识别有价值的纹理信息。

特征级别下的信息融合,允许使用互补信息来增强性能。基于融合的检测方法比较如表2-4所示。

表2-4 基于融合的检测方法比较