
一个示意图,展示模型的工作流程,从左侧的车辆轨迹和环境感知场景开始。图中描绘了一个浅灰色的道路平面,上面有多个彩色汽车图标(红色代表自车,蓝色/绿色代表周围车辆)。自车的历史轨迹用一条粗实的箭头表示,周围车辆的动态影响范围用虚线圆圈圈出。车道线、十字路口和交通信号灯等道路结构用细灰线或小图标标记。总体而言,系统输入包括多模态观测数据,包括自车的历史路径、相邻车辆的运动状态以及静态道路拓扑。 接下来,进入第二阶段:特征提取模块,该模块分为两个并行路径:时空交互特征和驾驶员意图特征。 上方的路径用于时空交互特征提取: 自车的历史坐标 (x_t, y_t) 输入到一组三个蓝色 3D 立方体块中,代表一个 GRU 编码器,标记为“时间交互特征”,输出时间特征 f_e^t;同时,周围车辆和道路结构输入到一组黄色 3D 立方体块中,代表一个 GAT 图注意力网络,标记为“空间交互特征”,输出空间特征 f_e^s。两者通过一个绿色梯形模块连接,标记为“Concat(f_e^t, f_e^s)”,最终输出外部交互特征 f_e。 下方的路径用于驾驶员意图特征提取: 历史轨迹 X 输入到一个橙色矩形框中,标记为“目的地解码器”,输出预测的目的地 D̂;然后,通过两个并行的矩形模块提取特征:一个浅蓝色矩形,标记为“历史特征 (f_his)”,和一个浅紫色矩形,标记为“目的地特征 (f_des)”,通过 MLP 实现;然后将两者发送到一个绿色梯形模块,标记为“注意力融合”,内部包含一个隐式的 QKV 注意力机制公式,输出融合的驾驶员意图特征 f_in。 第三阶段是时空特征融合模块: f_in 和 f_e 连接成一个混合特征 h_fus,输入到一个深蓝色梯形模块中,标记为“Mamba 融合模块”,使用 Mamba 架构来有效地建模长程依赖关系,输出最终融合的特征 f_fus。在视觉上,可以在该模块上添加波浪纹理或“M”符号,以强调其序列建模能力。 第四阶段是条件引导的噪声生成模块: f_fus 输入到两个并行的橙色梯形模块中,左侧的标记为“均值解码器 (μ̄_θ)”,右侧的标记为“标准差解码器 (σ̄_θ)”,它们共同定义一个引导的噪声分布;输出连接到一个带有波浪纹理背景的矩形框,标记为“”