既要又要｜SemanticFormer时空关系和空间关系都不放过，性能超越一众SOTA-轻识

点击下方卡片，关注「AI视界引擎」公众号

自动驾驶中的轨迹预测依赖于对驾驶场景中所有相关上下文的准确表征，包括交通参与者、道路拓扑、交通标志以及它们之间的语义关系。尽管这个问题受到了越来越多的关注，但大多数轨迹预测方法没有充分考虑所有这些因素。本文描述了一种名为SemanticFormer的方法，通过在语义交通场景图上使用混合方法进行推理，来预测多模态轨迹。作者从知识图中提取高级信息，形式为语义元路径，然后通过一种新颖的基于多个注意力机制的流水线处理这些信息以预测准确的轨迹。

所提出的架构包括一个分层的异构图编码器，能够捕捉Agent之间的时空关系信息以及Agent与道路元素之间的关系，以及一个融合不同编码并解码带有概率的轨迹的预测器。最后，一个细化模块评估轨迹的允许元路径和速度剖面，以获得最终的预测轨迹。在nuScenes基准测试上的评估表明，与现有最先进的方法相比，性能有所提高。

I Introduction

自主车辆被认为是一种有前景的解决方案，用以解决道路安全、交通拥堵和能源优化等关键挑战。实现自动驾驶愿景的一个关键任务是运动预测。这涉及到确定一组空间坐标，这些坐标代表了在未来的时间窗口内给定Agent的预测移动。然而，由于各种情境因素，如意图预测的困难、交通参与者之间的复杂交互、包含车道、车道分隔线和行人过街的复杂道路拓扑，以及遵守交通规则，运动预测是一项具有挑战性的任务。因此，最先进的方法试图使用各种交通场景的表示，如基于栅格的或基于图的，以充分捕捉和利用情境信息。

最近的工作应用知识图谱来表示交通场景中的异质情境。到目前为止，这种表示尚未用于轨迹预测。因为知识图谱可以表示不同的实体及其关系，如图1所示，这在驾驶场景处理中非常重要，作者提出了一种新颖的混合方法，可以表示交通场景的静态和动态元素的异质信息，以及它们之间的语义关系。此外，所提出的架构包含一个注意力机制，用于利用交通Agent和道路元素之间的语义关系和依赖关系，进行准确的多模态轨迹预测。

作者的主要贡献是：

作者提出了一种符号方法，可以表示交通场景的静态和动态元素及其语义关系的异质信息。
作者提出了一种带有注意力机制的混合架构，能够建模交通Agent和道路元素之间的语义关系和依赖关系，以实现准确的多模态轨迹预测。
作者在nuScenes数据集上评估了SemanticFormer，并对不同的异质图算子进行了广泛的消融研究，并指出了它们在应用于复杂知识图谱时的局限性。

II Related Work

基于栅格的表示方法。使用地图和Agent栅格化表示的方法是首批基于神经网络的轨迹预测方法之一。它们将整个交通场景编码成带有多个通道的鸟瞰图像。这些通道用于表示场景中的各种道路结构和Agent。在栅格表示之上，通常应用卷积神经网络（CNN）来学习地图和Agent的表示。这些模型的缺点是它们无法访问高级信息，并且需要从原始像素中学习。另一种方法旨在估计表示Agent可能在固定时间范围内所在位置的概率分布 Heatmap。同时，基于栅格的方法进一步扩展为生成多条可能的轨迹，同时估计它们的概率。

基于图的表示方法。下一代轨迹预测技术将场景表示为向量、折线和图。这一类别中的最先进方法利用图作为数据表示的手段，从而在更高层次的抽象上操作。通过消除网络从低级像素学习的需要，这些方法有望在处理变异性方面表现出更大的韧性。

像VectorNet这样的方法将地图特征和Agent轨迹都编码为折线，然后与全局交互图合并。TNT扩展了VectorNet，并将其与从车道上采样的多个目标参考轨迹 Proposal 相结合，以多样化预测点。这些方法的局限性在于，它们通常只考虑具有一种实体类型和一种关系类型的同构图。像人行横道这样的附加信息通常用标志包含。

异构图表示。异构图方法，即具有不同实体类型（如车辆、自行车或行人）和关系类型（如Agent到车道或Agent到Agent）的图，最近在中提出。另一方面使用高级表示，其中单个节点代表整个实体，如车辆或车道。对于这种高级表示，异构图被用于捕捉出现的不同类型的节点和边。SemanticFormer通过使用形式本体来表示领域的丰富语义，扩展了这些基于异构图表示的方法。这些本体使得能够建立表达性的知识图，它们可以包含先验知识，以及来自如天气、交通等不同来源的上下文信息。

注意力机制广泛用于学习在轨迹预测任务中关注哪些数据。这种机制在基于栅格的方法，基于向量或图的方法以及无地图方法中使用。[36]提出了一种基于分层向量 Transformer 的 approach，包括局部上下文特征编码，随后是全局消息传递，在以Agent为中心的局部区域之间。

以目标或意图为条件的系统对目标候选进行采样，并基于它们预测轨迹。在[40]中的作者使用基于网格的政策学习通过最大熵逆向强化学习来条件轨迹预测。

Anchor 定轨迹。利用一组固定的 Anchor 定轨迹对应于允许和可能的轨迹的方法在[41, 2]中提出。[13]提出了一种学习 Anchor 定轨迹的潜在表示的方法。SemanticFormer采用了 Anchor 定轨迹的思想，并将其进一步发展成下面描述的元路径。

交互建模。[34, 42]中提出了一些考虑Agent之间交互的轨迹预测方法。作者通过定义特定关系（例如，如果车辆可能相交或在同一车道上行驶）以及沿着车道的两辆车之间的距离等属性，更明确地建模这些交互。

III Methodology

作者使用知识图谱来表示地图和Agent信息。这使得作者可以明确地建模各种地图元素，如车道、车道分隔线等，以及它们的语义关系。以下，作者描述了图2中展示的全面架构，该架构使用知识图谱来预测多模态轨迹。该架构从输入场景图开始，为目标Agent输出多模态轨迹。最后，细化模块考虑 Anchor 路径和速度轮廓来过滤预测的轨迹，以避免失败情况。下面详细解释了架构的每个模块。

Ontology and Heterogeneous Scene Graph

作者利用本体来明确表示交通场景中的丰富信息。因此，基于领域知识，作者建模了在轨迹预测任务中认为重要的实体之间的关系。图3展示了所开发的本体，包括各种实体和关系类型。实体类型被分为两组：第一组包含静态地图实体，如车道类型、边界、中心线和停车区；而第二组包含动态Agent实体，如Agent类型、状态和边界框。

至于关系类型，它们分为三类：

Agent之间的，通过如图4b中展示的横向、纵向和交叉关联构建语义模型，类似于[22]中提出的概念；
地图元素之间的，建立车道的连通性以及车道与道路基础设施元素（如停车区、交通灯、人行横道）之间的关系；
地图元素与Agent之间的关系，利用概率投影将Agent映射到道路基础设施上。

基于设计的本体，作者通过一个有向异构场景图来表示场景。这个场景图有节点，节点类型为，以及边，边类型为。边是有向的，因为它们基于知识图的属性。

Problem Formulation for Trajectory Prediction

作者假设感知部分可以提供关于智能体位置、过去的运动以及高清地图的详细信息，作者构建了前文所述的场景图。然后，数据集的一个样本可以形成如的形式，其中是一个带有轨迹信息、局部地图和目标标识符的样本场景图，而是目标的 GT 未来轨迹。智能体过去的轨迹和地图信息都是以分层的方式表示的。

并且覆盖了在给定时间范围内的信息。作者使用来表示参与者节点。每个场景参与者节点表示为，其中和分别代表前一时间戳和当前时间戳的场景参与者位置，表示与当前场景参与者相关的其他属性，如速度、加速度、航向变化率和物体类型。

对于地图信息，作者使用来表示一个车道片段，其中每个代表一个车道切片，表示给定车道片段的长度。每个车道切片向量添加了来指示起点的前驱。为了构建车道片段之间的连接，作者使用表示车道连接器，其中每个编码了车道连接器内的有序姿态，表示车道连接器的长度。

知识图中的坐标最初位于全局坐标系中。这些坐标分别转换到局部、特定于场景图的坐标系中，原点位于目标智能体的位置，正y轴指向目标智能体的面向方向。

Semantic Scene Graph Hierarchical Modelling

理解视觉场景不仅仅是孤立地识别单个目标。目标之间的关系同样构成了丰富的场景语义信息。本文采用场景图（一种基于图像的可视化图形结构）明确地对目标及其关系进行建模。作者提出了一种新颖的端到端模型，它可以从输入图像生成这种结构化的场景图。该模型使用标准的递归神经网络（RNNs）解决场景图推理问题，并通过消息传递迭代地改进预测。作者的联合推理模型能够利用上下文线索对物体及其关系进行更好的预测。

在深入理解视觉场景的关键步骤中，构建一个捕获目标及其语义关系的结构化表示至关重要。这种表示不仅为基本的识别任务提供了上下文线索，而且在更高水平的视觉任务中提供了额外的价值。在近年来，物体识别任务特别是在形成目标间关系方面取得了显著成就。视觉场景图能够将目标之间的关系更加直观地表示出来，并且在语义图像检索、三维场景合成、视觉问答等视觉任务中扮演着重要的角色。为了真正利用这种丰富的结构，关键是要设计一个能够自动从图像中生成场景图的模型。

Iii-C1 Meta-Path Generation

作者提取了描述允许和可能的驾驶方向的元路径，以导航目标参与者。不同的建模允许变道和转弯的元路径可以分为三组，即变道情况、进入车道连接器和离开车道连接器情况。图(a)a对生成的元路径进行了定性分析。具体来说，作者下面展示了以下样本元路径，例如变道1，离开连接器2，和进入连接器情况3，其中表示元路径。

(2)

Iii-A2 Agent Motion and Lane Encoder

这一部分介绍了一个时空编码器。作者使用图神经网络（GNN）和门控循环单元（GRU）层按顺序处理参与者、车道片段和车道连接器。分别用、和来表示编码。此外，受到 LaneGCN 的启发，作者按照图5所示合并结果。方程式4将车道信息引入到相关Agent中，而方程式5和方程式6将参与者信息添加到相关车道和车道连接器中。

其中。这些编码被分配给中的节点属性。

Iii-A3 Semantic Scene Graph Encoder

作者使用了异构图算子来推理给定的场景图。为了更好地融合生成的元路径，作者遵循来自HAN [43] 的原则，该原则具有从节点级关注到语义级关注的层次化注意力结构。将HAN应用于学习关系信息的算法展示在算法1中。概率预测器使用了三种不同的节点类型来编码参与者、车道片段和车道连接器。作者分别用、、来表示这三种类型，其中、、。

Iii-A4 Probability Predictor

由于场景图编码器，车道片段节点和车道连接器节点被投影到相同的维度。作者将这两种类型的节点视为同一类型，并用来表示它们。受到LAGformer 的启发，作者在每个未来时间步对齐目标智能体运动和车道信息。为了实现这一点，作者使用一个车道分数头和一个注意力机制来预测车道编码概率。在注意力机制中，键（）和值（）向量是， Query （）是。然后注意力编码为。然后，时刻第个车道编码的预测分数如方程7所示，其中表示MLP层。作者选择top-k车道编码以保持不确定性，并在未来拼接候选车道段及其相关分数

作者使用二进制交叉熵损失来优化概率估计，如方程8所示。 GT 车道段依赖于知识图中的 isOn 关系。然后进行交叉注意力，进一步融合智能体和车道信息。键和值向量是， Query 向量是。更新后的车道输出是。

作者采用一个预测器来生成多模态轨迹。作者从多元正态分布中抽取一个潜在向量，并将其添加到融合编码中。然后使用拉普拉斯混合密度网络（MDN）解码器输出一组轨迹。表示每个模式的概率，且。和分别表示每个拉普拉斯成分的位置和尺度参数。作者使用MLP来预测，使用GRU来恢复预测的时间维度，以及两个MLP来预测和。作者通过最小化回归损失和分类损失来训练预测器。回归损失使用Winner-Takes-All策略计算，如方程9所示。

其中是 GT 位置，表示在个预测中具有最小误差的最佳模式。使用交叉熵损失来优化模式分类，如方程10所示。

作者使用几个指标来评估与 GT 值的偏差，例如速度损失和角度损失，并研究不同测量对预测的影响。对于速度损失，作者计算 GT 速度轨迹和预测速度轨迹，然后速度损失如方程11所示。

对于角度损失，作者使用来表示初始位置，并计算 GT 角度和预测角度。作者可以按照方程12所示计算损失。

运动预测的总损失由公式13给出。

其中，，和是权重系数。

Prediction Refinement

为了过滤掉不合理的预测，作者通过 Anchor 定路径分析预测的轨迹。 Anchor 定路径为道路网络中给定位置的Agent提供了可能且允许的轨迹。作者使用这些路径来过滤掉远离这些 Anchor 定路径的轨迹候选。

然后，作者根据它们的速度剖面将剩余的轨迹候选进行聚类，并保留接近聚类中心的顶部候选轨迹。为了进行不公平的比较，作者还使用真实速度剖面进行实验，以了解速度组件在预测结果中的相关性。详细信息显示在算法2中。

IV Experiments

Dataset & nuScenes Knowledge Graph

nuScenes数据集[6]是为自动驾驶汽车收集的，地点在波士顿和新加坡。它包括1000个场景，每个场景持续20秒，并附有精心标注的 GT 细节以及高清（HD）地图。该数据集中的车辆拥有手动标注的3D边界框，并以2赫兹的频率发布。对于预测任务，目标是在利用前2秒的目标历史和地图数据的基础上，预测接下来的6秒。作者遵循nuScenes基准描述中提供的标准划分。作者将作者提出的本体应用于nuScenes数据集，并根据[5]中描述的场景的所有可用知识生成场景图。特征由上游感知组件和nuScenes数据集中的HD地图提供。

表1和II列出了每种节点类型和每种关系类型所使用的特征集。所有表达类别类型的特征都采用一键编码。

Metrics

作者使用标准的评估指标来评估预测性能，特别是采用（针对个模式的平均位移误差）和（针对个模式的最终位移误差）。这些指标衡量的是误差，在预测个模式的每一步的最终步骤以及平均步骤中。报告的是个模式中的最小误差。ADE 和 FDE 都以米为单位进行测量。此外，错过率计算的是最终步骤误差超过2米的场景的百分比。

Model Implementation

Pipeline 中向量的隐藏维度设置为64。异构图神经网络层的设置为2，并使用求和聚合方法。在HAN中的注意力头设置为8，而等式13中的参数、和的值分别设置为0.9、1和1。

作者使用了距离最近的四个交通堵塞内的所有Agent和地图元素。SemanticFormer中的坐标系是以时Agent位置为中心的鸟瞰图（BEV）。作者使用从时的Agent位置到时的Agent位置的方位作为正x轴。作者在单个TESLA-A100 GPU上使用批量大小为32的模型进行训练，并使用Adam优化器，初始学习率为，每5个周期衰减0.7。

Quantitative Results

作者按照表3所示在nuScenes在线基准上比较作者的结果。SemanticFormer方法是指直接预测5条轨迹而不进行预测细化。SemanticFormerR是指使用SemanticFormer方法预测25条轨迹，然后细化这些预测。

从比较中可以看出，SemanticFormerR取得了具有竞争力的性能，这表明知识图能够在交通场景中很好地表示复杂和异质信息。同时，这也表明速度对未来轨迹具有巨大影响。这意味着通过不公平的比较，使用算法2之后的真实速度，SemanticFormerR在当代最先进的方法中显示出显著的优势。

Ablation study

V-E1 Effect of Heterogeneous Graph Operators

作者分析了不同的异构图算子，如HGT和HAN。正如表4所示，在推理包含数千个节点的复杂交通场景图时，HGT可能会出现过拟合。为了防止这种情况，作者将单实线、双实线等子类别合并为和关系，以表示变道情况。然而，对于像HGT这样的算子，模型在25个周期后仍然出现过拟合。为了更好地融合元路径并减少过拟合，作者转向HAN算子，而HAN的收敛非常稳定，这可能指出了某些HGNN算子的缺点。

V-E2 Effect of Different Traffic Scenarios

作者使用知识图谱来识别不同的交通场景并进行比较。为了增强对时空信息的预测，作者同时利用速度和 Anchor 路径。速度使作者能够追踪时间位置的变化，而 Anchor 路径则作为确定方向的参考。作者观察到，在车道跟随场景中，

预测效果最好，因为模型只需预测不同的速度剖面，而车道中心线可以提供准确的 direction。对于交叉路口场景，模型需要捕捉不遵循 Anchor 路径的不确定性；而在停车区，车辆可能不会遵循车道方向，这可能导致 Anchor 路径提供错误信息。从表5所示的消融研究中，作者得出结论，SemanticFormer在像车道跟随这样的简单情况下非常好，而在像交叉路口和停车这样的复杂情况下稍差。此外，SemanticFormer也适用于非地图场景。

Qualitative results

作者在图6中提供了作者预测的定性可视化。在第一行中，细化工作非常完美，因为它考虑了三种转弯可能性，而SemanticFormer只关注直行情况。在第二行和第四行中，细化成功地捕捉到了变道情况。在第三行中，细化阻止了预测超出道路范围。

V Conclusions

本文提出了一种新颖的方法，用于推理语义交通场景图，该方法利用过去的轨迹和高清晰地图作为输入，输出一组多模态预测轨迹。场景图编码器模块旨在从四个方面捕捉交通场景中的交互：Agent-Agent交互、Agent-地图交互、地图-地图交互以及元路径交互。此外，细化模块考虑了典型的速度剖面和 Anchor 定路径以对轨迹候选进行细化。

SemanticFormer取得了与当前最先进模型相媲美的优秀性能，并且通过几个消融研究展示了卓越的泛化性能。此外，广泛的消融和敏感性研究也指出了当前异构图操作符在应用于复杂知识图时的局限性。未来的工作将关注更完整的知识图，如果包括更多信息，如交通规则、交通标志和其他常识。

点击上方卡片，关注「AI视界引擎」公众号