
一個示意圖,展示模型的工作流程,從左側的車輛軌跡和環境感知場景開始。圖中描繪了一個淺灰色的道路平面,上面有多個彩色汽車圖示(紅色代表自車,藍色/綠色代表周圍車輛)。自車的歷史軌跡用一條粗實線箭頭表示,周圍車輛的動態影響範圍用虛線圓圈包圍。道路結構,如車道線、十字路口和交通燈,用細灰色線條或小圖示標記。總體而言,系統輸入由多模態觀測數據組成,包括自車的歷史路徑、相鄰車輛的運動狀態和靜態道路拓撲。 接下來,進入第二階段:特徵提取模塊,該模塊分為兩個並行路徑:時空交互特徵和駕駛員意圖特徵。 上路徑用於時空交互特徵提取: 自車的歷史坐標 (x_t, y_t) 輸入到一組三個藍色 3D 立方體塊中,代表一個 GRU 編碼器,標記為「時間交互特徵」,輸出時間特徵 f_e^t;同時,周圍車輛和道路結構輸入到一組黃色 3D 立方體塊中,代表一個 GAT 圖注意力網絡,標記為「空間交互特徵」,輸出空間特徵 f_e^s。兩者通過一個綠色梯形模塊連接,標記為「Concat(f_e^t, f_e^s)」,最終輸出外部交互特徵 f_e。 下路徑用於駕駛員意圖特徵提取: 歷史軌跡 X 輸入到一個橙色矩形框中,標記為「目的地解碼器」,輸出預測的目的地 D̂;然後,通過兩個並行矩形模塊提取特徵:一個標記為「歷史特徵 (f_his)」的淺藍色矩形和一個標記為「目的地特徵 (f_des)」的淺紫色矩形,通過 MLP;然後將兩者發送到一個綠色梯形模塊,標記為「注意力融合」,內部包含一個隱式的 QKV 注意力機制公式,輸出融合的駕駛員意圖特徵 f_in。 第三階段是時空特徵融合模塊: f_in 和 f_e 連接成一個混合特徵 h_fus,輸入到一個深藍色梯形模塊中,標記為「Mamba 融合模塊」,使用 Mamba 架構來有效地建模長程依賴關係,輸出最終融合的特徵 f_fus。在視覺上,可以在此模塊上添加波浪紋理或「M」符號,以強調其序列建模能力。 第四階段是條件引導的噪聲生成模塊: f_fus 輸入到兩個並行的橙色梯形模塊中,左側一個標記為「均值解碼器 (μ̄_θ)」,右側一個標記為「標準差解碼器 (σ̄_θ)」,它們共同定義一個引導的噪聲分佈;輸出連接到一個帶有波浪紋理背景的矩形框,標記為「」