Un schéma illustrant le flux de travail du modèle, commençant par la trajectoire du véhicule et la scène de perception de l'environnement à gauche. Le schéma représente un plan de route gris clair avec plusieurs icônes de voitures colorées (rouge pour le véhicule ego, bleu/vert pour les véhicules environnants). La trajectoire historique du véhicule ego est indiquée par une flèche épaisse et continue, et la zone d'influence dynamique des véhicules environnants est délimitée par des cercles en pointillés. Les structures routières, telles que les lignes de marquage au sol, sont marquées par de fines lignes grises ou de petites icônes. Globalement, l'entrée du système consiste en des données d'observation multimodales comprenant la trajectoire historique du véhicule ego, l'état de mouvement des véhicules voisins et la topologie statique de la route. Ensuite, le processus entre dans la deuxième étape : le module d'extraction de caractéristiques, qui est divisé en deux chemins parallèles : les caractéristiques d'interaction spatio-temporelle et les caractéristiques d'intention du conducteur. Le chemin supérieur est destiné à l'extraction des caractéristiques d'interaction spatio-temporelle : Les coordonnées historiques (x_t, y_t) du véhicule ego sont entrées dans un ensemble de trois blocs cubiques 3D bleus, représentant un encodeur GRU, étiqueté "Caractéristique d'interaction temporelle", produisant la caractéristique temporelle f_e^t. Simultanément, les véhicules environnants et les structures routières sont entrés dans un ensemble de blocs cubiques 3D jaunes, représentant un réseau d'attention de graphe GAT, étiqueté "Caractéristique d'interaction spatiale", produisant la caractéristique spatiale f_e^s. Les deux sont concaténés via un module trapézoïdal vert, étiqueté "Concat(f_e^t, f_e^s)", produisant finalement la caractéristique d'interaction externe f_e. Le chemin inférieur est destiné à l'extraction des caractéristiques d'intention du conducteur : La trajectoire historique X est entrée dans une boîte rectangulaire orange, étiquetée "Décodeur de destination", produisant la destination prédite D̂. Par la suite, la sortie passe par deux modules rectangulaires parallèles : un rectangle bleu clair étiqueté "Caractéristique historique (f_his)" et un rectangle violet clair étiqueté "Caractéristique de destination (f_des)", à partir desquels les caractéristiques sont extraites par un MLP. Ces caractéristiques sont ensuite introduites dans un module trapézoïdal vert, étiqueté "Fusion d'attention", impliquant intérieurement la formule du mécanisme d'attention QKV, produisant la caractéristique d'intention du conducteur fusionnée f_in. La troisième étape est le module de fusion des caractéristiques spatio-temporelles : f_in et f_e sont concaténés en une caractéristique mixte h_fus, qui est entrée dans un module trapézoïdal bleu foncé, étiqueté "Module de fusion Mamba". Ce module utilise l'architecture Mamba pour modéliser efficacement les dépendances à longue portée, produisant la caractéristique fusionnée finale f_fus. Visuellement, ce module peut incorporer une texture ondulée ou un symbole "M" pour souligner sa capacité de modélisation de séquence. La quatrième étape est le module de génération de bruit conditionné : f_fus est entré dans deux modules trapézoïdaux orange parallèles, celui de gauche étiqueté "Décodeur de moyenne (μ̄_θ)" et celui de droite étiqueté "Décodeur d'écart type (σ̄_θ)". Ces deux modules définissent conjointement une distribution de bruit guidée. La sortie se connecte à une boîte rectangulaire avec un fond texturé ondulé, étiquetée "Guidé ""
Dessiner une feuille de route technologique. Feuille de rout...