
一张展示模型流程的示意图,首先从左侧的车辆轨迹与环境感知场景开始。 图中绘制一个浅灰色的道路平面,上面分布多个彩色小车图标(红色代表主车,蓝色/绿色代表周围车辆),主车历史轨迹用粗实线箭头标出,周围车辆动态影响范围用虚线圆圈包围,道路结构如车道线、路口、红绿灯等用细灰线或小图标标注,整体表示系统输入的是包含主车历史路径、邻车运动状态及静态道路拓扑的多模态观测数据。 接着进入第二阶段:特征提取模块,分为时空交互特征与驾驶员意图特征两条并行路径。 上方路径为时空交互特征提取: 主车历史坐标 (x_t, y_t) 输入到一组三个蓝色三维立方体块,代表 GRU 编码器,标注为 “Temporal Interaction Feature”,输出时序特征 f_e^t;同时,周围车辆与道路结构输入到一组黄色三维立方体块,代表 GAT 图注意力网络,标注为 “Spatial Interaction Feature”,输出空间特征 f_e^s。两者通过一个绿色梯形模块拼接,标注为 “Concat(f_e^t, f_e^s)”,最终输出外部交互特征 f_e。 下方路径为驾驶员意图特征提取: 历史轨迹 X 输入到一个橙色矩形框,标注为 “Destination Decoder”,输出预测目的地 D̂;随后分别通过两个并排矩形模块:浅蓝矩形标注 “History Feature (f_his)” 和浅紫矩形标注 “Destination Feature (f_des)”,由 MLP 提取特征;二者再送入一个绿色梯形模块,标注为 “Attention Fusion”,内部隐含 QKV 注意力机制公式,输出融合后的驾驶员意图特征 f_in。 第三阶段为时空特征融合模块: 将 f_in 与 f_e 拼接成混合特征 h_fus,输入到一个深蓝色梯形模块,标注为 “Mamba Fusion Module”,利用 Mamba 架构高效建模长距离依赖,输出最终融合特征 f_fus,该模块视觉上可加入波浪纹或“M”符号强调其序列建模能力。 第四阶段为条件引导的噪声生成模块: f_fus 分别输入到两个并排的橙色梯形模块,左侧标注 “Mean Decoder (μ̄_θ)”,右侧标注 “Std Decoder (σ̄_θ)”,二者共同定义一个引导噪声分布;输出连接至一个波纹纹理背景的矩形框,标注为 “Guided Noise Distribution”,框内可简写公式 Ȳ = μ̄_θ + σ̄_θ · X̄,表示在扩散前向过程中注入语义先验,使噪声更贴合驾驶意图。 第五阶段为轨迹推断与去噪模块: 引导噪声 Ȳ 输入到另一个深蓝色梯形模块,标注为 “Mamba Denoiser”,作为反向扩散过程的核心去噪网络;模块旁可添加时间递减箭头(T→0)和循环符号,表示迭代去噪步骤。 最后阶段为多模态未来轨迹输出: 去噪结果生成多条候选轨迹,以多个白色矩形框横向排列呈现,每个框内绘制一条不同颜色与形状的轨迹线段(如红色直线、蓝色曲线、绿色折线等),统一标注为 T₀,上方标注目标时间步 τ,并辅以省略号 ... 表示系统可输出任意数量的合理未来路径,体现预测的多样性与概率性。
モデルのワークフローを示す図。左側には車両の軌跡と環境認識シーンが描かれている。図は、薄い灰色の道路平面と、複数の色の車...