
一张图表,展示模型的工作流程,从左侧的车辆轨迹和环境感知场景开始。图表描绘了一个浅灰色的路面,上面有多个彩色汽车图标(红色代表自车,蓝色/绿色代表周围车辆)。自车的历史轨迹用一条粗实的箭头表示,周围车辆的动态影响范围用虚线圆圈圈出。道路结构,如车道线,用细灰线或小图标标记。总体而言,系统输入包括多模态观测数据,包括自车的历史路径、相邻车辆的运动状态以及静态道路拓扑。 接下来,流程进入第二阶段:特征提取模块,该模块分为两个并行路径:时空交互特征和驾驶员意图特征。 上方的路径用于时空交互特征提取: 自车的历史坐标 (x_t, y_t) 输入到一组三个蓝色3D立方体块中,代表一个GRU编码器,标记为“时间交互特征”,输出时间特征 f_e^t。同时,周围车辆和道路结构输入到一组黄色3D立方体块中,代表一个GAT图注意力网络,标记为“空间交互特征”,输出空间特征 f_e^s。两者通过一个绿色梯形模块连接,标记为“Concat(f_e^t, f_e^s)”,最终输出外部交互特征 f_e。 下方的路径用于驾驶员意图特征提取: 历史轨迹 X 输入到一个橙色矩形框中,标记为“目的地解码器”,输出预测的目的地 D̂。随后,输出通过两个并行的矩形模块:一个浅蓝色矩形,标记为“历史特征 (f_his)”,和一个浅紫色矩形,标记为“目的地特征 (f_des)”,从中通过MLP提取特征。这些特征随后被输入到一个绿色梯形模块中,标记为“注意力融合”,内部暗示了QKV注意力机制公式,输出融合的驾驶员意图特征 f_in。 第三阶段是时空特征融合模块: f_in 和 f_e 被连接成一个混合特征 h_fus,该特征被输入到一个深蓝色梯形模块中,标记为“Mamba融合模块”。该模块利用Mamba架构来有效地建模长程依赖关系,输出最终融合的特征 f_fus。在视觉上,该模块可以包含波浪纹理或“M”符号,以强调其序列建模能力。 第四阶段是条件引导的噪声生成模块: f_fus 被输入到两个并行的橙色梯形模块中,左边的模块标记为“均值解码器 (μ̄_θ)”,右边的模块标记为“标准差解码器 (σ̄_θ)”。这两个模块共同定义一个引导噪声分布。输出连接到一个带有波浪纹理背景的矩形框,标记为“引导""

一个示意图,展示模型的工作流程,从左侧的车辆轨迹和环境感知场景开始。图中描绘了一个浅灰色的道路平面,上面有多个彩色汽车图...