
一張圖表,說明模型工作流程,從左側的車輛軌跡和環境感知場景開始。圖表描繪了一個淺灰色的道路平面,上面有多個彩色汽車圖示(紅色代表自車,藍色/綠色代表周圍車輛)。自車的歷史軌跡用一條粗實線箭頭表示,周圍車輛的動態影響範圍用虛線圓圈包圍。道路結構,例如車道線,用細灰色線條或小圖示標記。總體而言,系統輸入包含多模態觀測數據,包括自車的歷史路徑、相鄰車輛的運動狀態以及靜態道路拓撲。 接下來,流程進入第二階段:特徵提取模塊,該模塊分為兩個並行路徑:時空交互特徵和駕駛員意圖特徵。 上方路徑用於時空交互特徵提取: 自車的歷史坐標 (x_t, y_t) 輸入到一組三個藍色 3D 立方體塊中,代表一個 GRU 編碼器,標記為「時間交互特徵」,輸出時間特徵 f_e^t。同時,周圍車輛和道路結構輸入到一組黃色 3D 立方體塊中,代表一個 GAT 圖注意力網絡,標記為「空間交互特徵」,輸出空間特徵 f_e^s。兩者通過一個綠色梯形模塊連接,標記為「Concat(f_e^t, f_e^s)」,最終輸出外部交互特徵 f_e。 下方路徑用於駕駛員意圖特徵提取: 歷史軌跡 X 輸入到一個橙色矩形框中,標記為「目的地解碼器」,輸出預測的目的地 D̂。隨後,輸出通過兩個並行矩形模塊:一個標記為「歷史特徵 (f_his)」的淺藍色矩形和一個標記為「目的地特徵 (f_des)」的淺紫色矩形,從中通過 MLP 提取特徵。這些特徵然後被饋送到一個綠色梯形模塊中,標記為「注意力融合」,內部暗示 QKV 注意力機制公式,輸出融合的駕駛員意圖特徵 f_in。 第三階段是時空特徵融合模塊: f_in 和 f_e 被連接成一個混合特徵 h_fus,它被輸入到一個深藍色梯形模塊中,標記為「Mamba 融合模塊」。該模塊利用 Mamba 架構來有效地建模長程依賴關係,輸出最終融合的特徵 f_fus。在視覺上,該模塊可以包含波浪紋理或「M」符號,以強調其序列建模能力。 第四階段是條件引導的噪聲生成模塊: f_fus 被輸入到兩個並行的橙色梯形模塊中,左邊一個標記為「均值解碼器 (μ̄_θ)」,右邊一個標記為「標準差解碼器 (σ̄_θ)」。這兩個模塊共同定義一個引導的噪聲分佈。輸出連接到一個具有波浪紋理背景的矩形框,標記為「引導」

一個示意圖,展示模型的工作流程,從左側的車輛軌跡和環境感知場景開始。圖中描繪了一個淺灰色的道路平面,上面有多個彩色汽車圖...