Un diagrama que ilustra el flujo de trabajo del modelo, comenzando con la trayectoria del vehículo y la escena de percepción ambiental a la izquierda. El diagrama representa un plano de carretera gris claro con múltiples iconos de coches de colores (rojo para el vehículo propio, azul/verde para los vehículos circundantes). La trayectoria histórica del vehículo propio se indica con una flecha sólida gruesa, y el rango de influencia dinámica de los vehículos circundantes está encerrado por círculos discontinuos. Las estructuras de la carretera, como las líneas de carril, están marcadas con líneas grises finas o pequeños iconos. En general, la entrada del sistema consiste en datos de observación multi-modales que incluyen la trayectoria histórica del vehículo propio, el estado de movimiento de los vehículos vecinos y la topología estática de la carretera. A continuación, el proceso entra en la segunda etapa: el módulo de extracción de características, que se divide en dos rutas paralelas: características de interacción espacio-temporal y características de intención del conductor. La ruta superior es para la extracción de características de interacción espacio-temporal: Las coordenadas históricas del vehículo propio (x_t, y_t) se introducen en un conjunto de tres bloques cúbicos 3D azules, que representan un codificador GRU, etiquetado como "Característica de Interacción Temporal", que produce la característica temporal f_e^t. Simultáneamente, los vehículos circundantes y las estructuras de la carretera se introducen en un conjunto de bloques cúbicos 3D amarillos, que representan una red de atención de grafos GAT, etiquetada como "Característica de Interacción Espacial", que produce la característica espacial f_e^s. Los dos se concatenan a través de un módulo trapezoidal verde, etiquetado como "Concat(f_e^t, f_e^s)", que finalmente produce la característica de interacción externa f_e. La ruta inferior es para la extracción de características de intención del conductor: La trayectoria histórica X se introduce en una caja rectangular naranja, etiquetada como "Decodificador de Destino", que produce el destino predicho D̂. Posteriormente, la salida pasa a través de dos módulos rectangulares paralelos: un rectángulo azul claro etiquetado como "Característica Histórica (f_his)" y un rectángulo púrpura claro etiquetado como "Característica de Destino (f_des)", de los cuales se extraen características mediante un MLP. Estas características se introducen luego en un módulo trapezoidal verde, etiquetado como "Fusión de Atención", que implica internamente la fórmula del mecanismo de atención QKV, produciendo la característica de intención del conductor fusionada f_in. La tercera etapa es el módulo de fusión de características espacio-temporales: f_in y f_e se concatenan en una característica mixta h_fus, que se introduce en un módulo trapezoidal azul oscuro, etiquetado como "Módulo de Fusión Mamba". Este módulo utiliza la arquitectura Mamba para modelar eficientemente las dependencias de largo alcance, produciendo la característica fusionada final f_fus. Visualmente, este módulo puede incorporar una textura ondulada o un símbolo "M" para enfatizar su capacidad de modelado de secuencias. La cuarta etapa es el módulo de generación de ruido condicionado: f_fus se introduce en dos módulos trapezoidales naranjas paralelos, el de la izquierda etiquetado como "Decodificador de Media (μ̄_θ)" y el de la derecha etiquetado como "Decodificador de Desviación Estándar (σ̄_θ)". Estos dos módulos definen conjuntamente una distribución de ruido guiado. La salida se conecta a una caja rectangular con un fondo de textura ondulada, etiquetada como "Guiado"
Dibujar una hoja de ruta tecnológica. Hoja de Ruta Tecnológi...