Un diagrama esquemático que ilustre el flujo de trabajo del modelo, comenzando con la trayectoria del vehículo y la escena de percepción ambiental a la izquierda. El diagrama representa un plano de carretera gris claro con múltiples iconos de coches de colores (rojo representando el vehículo propio, azul/verde representando los vehículos circundantes). La trayectoria histórica del vehículo propio se indica con una flecha sólida gruesa, y el rango de influencia dinámica de los vehículos circundantes está encerrado por círculos discontinuos. Las estructuras de la carretera, como las líneas de carril, las intersecciones y los semáforos, están marcadas con finas líneas grises o pequeños iconos. En general, la entrada del sistema consiste en datos de observación multi-modales que incluyen la trayectoria histórica del vehículo propio, los estados de movimiento de los vehículos vecinos y la topología estática de la carretera. A continuación, entra en la segunda etapa: el módulo de extracción de características, que se divide en dos rutas paralelas: características de interacción espacio-temporal y características de intención del conductor. La ruta superior es para la extracción de características de interacción espacio-temporal: Las coordenadas históricas del vehículo propio (x_t, y_t) se introducen en un conjunto de tres bloques cúbicos 3D azules, que representan un codificador GRU, etiquetado como "Característica de Interacción Temporal", que produce la característica temporal f_e^t; simultáneamente, los vehículos circundantes y las estructuras de la carretera se introducen en un conjunto de bloques cúbicos 3D amarillos, que representan una red de atención de grafos GAT, etiquetada como "Característica de Interacción Espacial", que produce la característica espacial f_e^s. Los dos se concatenan a través de un módulo trapezoidal verde, etiquetado como "Concat(f_e^t, f_e^s)", produciendo finalmente la característica de interacción externa f_e. La ruta inferior es para la extracción de características de intención del conductor: La trayectoria histórica X se introduce en una caja rectangular naranja, etiquetada como "Decodificador de Destino", que produce el destino predicho D̂; luego, las características se extraen a través de dos módulos rectangulares paralelos: un rectángulo azul claro etiquetado como "Característica Histórica (f_his)" y un rectángulo púrpura claro etiquetado como "Característica de Destino (f_des)", mediante MLP; los dos se envían luego a un módulo trapezoidal verde, etiquetado como "Fusión de Atención", con una fórmula implícita de mecanismo de atención QKV en su interior, produciendo la característica fusionada de intención del conductor f_in. La tercera etapa es el módulo de fusión de características espacio-temporales: f_in y f_e se concatenan en una característica mixta h_fus, que se introduce en un módulo trapezoidal azul oscuro, etiquetado como "Módulo de Fusión Mamba", utilizando la arquitectura Mamba para modelar eficientemente las dependencias de largo alcance, produciendo la característica fusionada final f_fus. Visualmente, este módulo se puede añadir con texturas onduladas o un símbolo "M" para enfatizar su capacidad de modelado de secuencias. La cuarta etapa es el módulo de generación de ruido guiado por condiciones: f_fus se introduce en dos módulos trapezoidales naranjas paralelos, el de la izquierda etiquetado como "Decodificador de Media (μ̄_θ)" y el de la derecha etiquetado como "Decodificador de Desviación Estándar (σ̄_θ)", que juntos definen una distribución de ruido guiada; la salida está conectada a una caja rectangular con un fondo de textura ondulada, etiquetada como "".
Con el rápido desarrollo de la tecnología de rescate de emer...