Un schéma illustrant le flux de travail du modèle, commençant par la trajectoire du véhicule et la scène de perception de l'environnement à gauche. Le schéma représente un plan de route gris clair avec plusieurs icônes de voitures colorées (rouge représentant le véhicule ego, bleu/vert représentant les véhicules environnants). La trajectoire historique du véhicule ego est indiquée par une flèche épaisse et continue, et la zone d'influence dynamique des véhicules environnants est délimitée par des cercles en pointillés. Les structures routières telles que les lignes de voie, les intersections et les feux de circulation sont marquées par de fines lignes grises ou de petites icônes. Globalement, l'entrée du système consiste en des données d'observation multimodales comprenant la trajectoire historique du véhicule ego, les états de mouvement des véhicules voisins et la topologie statique de la route. Ensuite, il entre dans la deuxième étape : le module d'extraction de caractéristiques, qui est divisé en deux chemins parallèles : les caractéristiques d'interaction spatio-temporelle et les caractéristiques d'intention du conducteur. Le chemin supérieur est destiné à l'extraction des caractéristiques d'interaction spatio-temporelle : Les coordonnées historiques (x_t, y_t) du véhicule ego sont entrées dans un ensemble de trois blocs cubiques 3D bleus, représentant un encodeur GRU, étiqueté "Caractéristique d'interaction temporelle", produisant une caractéristique temporelle f_e^t ; simultanément, les véhicules environnants et les structures routières sont entrés dans un ensemble de blocs cubiques 3D jaunes, représentant un réseau d'attention de graphe GAT, étiqueté "Caractéristique d'interaction spatiale", produisant une caractéristique spatiale f_e^s. Les deux sont concaténés via un module trapézoïdal vert, étiqueté "Concat(f_e^t, f_e^s)", produisant finalement une caractéristique d'interaction externe f_e. Le chemin inférieur est destiné à l'extraction des caractéristiques d'intention du conducteur : La trajectoire historique X est entrée dans une boîte rectangulaire orange, étiquetée "Décodeur de destination", produisant la destination prédite D̂ ; ensuite, les caractéristiques sont extraites via deux modules rectangulaires parallèles : un rectangle bleu clair étiqueté "Caractéristique historique (f_his)" et un rectangle violet clair étiqueté "Caractéristique de destination (f_des)", par MLP ; les deux sont ensuite envoyés à un module trapézoïdal vert, étiqueté "Fusion d'attention", avec une formule de mécanisme d'attention QKV implicite à l'intérieur, produisant la caractéristique d'intention du conducteur fusionnée f_in. La troisième étape est le module de fusion des caractéristiques spatio-temporelles : f_in et f_e sont concaténés en une caractéristique mixte h_fus, qui est entrée dans un module trapézoïdal bleu foncé, étiqueté "Module de fusion Mamba", utilisant l'architecture Mamba pour modéliser efficacement les dépendances à longue portée, produisant la caractéristique fusionnée finale f_fus. Visuellement, ce module peut être agrémenté de textures ondulées ou d'un symbole "M" pour souligner sa capacité de modélisation de séquence. La quatrième étape est le module de génération de bruit guidé par condition : f_fus est entré dans deux modules trapézoïdaux orange parallèles, celui de gauche étiqueté "Décodeur de moyenne (μ̄_θ)" et celui de droite étiqueté "Décodeur d'écart type (σ̄_θ)", qui définissent ensemble une distribution de bruit guidée ; la sortie est connectée à une boîte rectangulaire avec un fond texturé ondulé, étiquetée ""
Avec le développement rapide de la technologie de sauvetage ...