Un diagramma schematico che illustra il flusso di lavoro del modello, partendo dalla traiettoria del veicolo e dalla scena di percezione ambientale sulla sinistra. Il diagramma raffigura un piano stradale grigio chiaro con multiple icone di auto colorate (rosso che rappresenta il veicolo ego, blu/verde che rappresentano i veicoli circostanti). La traiettoria storica del veicolo ego è indicata da una freccia spessa continua, e l'area di influenza dinamica dei veicoli circostanti è racchiusa da cerchi tratteggiati. Le strutture stradali come le linee di corsia, gli incroci e i semafori sono contrassegnati con sottili linee grigie o piccole icone. Nel complesso, l'input del sistema consiste in dati di osservazione multi-modali che includono il percorso storico del veicolo ego, gli stati di movimento dei veicoli vicini e la topologia statica della strada. Successivamente, si entra nella seconda fase: il modulo di estrazione delle caratteristiche, che è diviso in due percorsi paralleli: caratteristiche di interazione spazio-temporale e caratteristiche di intenzione del conducente. Il percorso superiore è per l'estrazione delle caratteristiche di interazione spazio-temporale: Le coordinate storiche del veicolo ego (x_t, y_t) vengono inserite in un insieme di tre blocchi cubici 3D blu, che rappresentano un encoder GRU, etichettato come "Caratteristica di Interazione Temporale", che produce la caratteristica temporale f_e^t; simultaneamente, i veicoli circostanti e le strutture stradali vengono inseriti in un insieme di blocchi cubici 3D gialli, che rappresentano una rete di attenzione del grafo GAT, etichettata come "Caratteristica di Interazione Spaziale", che produce la caratteristica spaziale f_e^s. I due sono concatenati attraverso un modulo trapezoidale verde, etichettato come "Concat(f_e^t, f_e^s)", producendo infine la caratteristica di interazione esterna f_e. Il percorso inferiore è per l'estrazione delle caratteristiche di intenzione del conducente: La traiettoria storica X viene inserita in una scatola rettangolare arancione, etichettata come "Destination Decoder", che produce la destinazione prevista D̂; quindi, le caratteristiche vengono estratte attraverso due moduli rettangolari paralleli: un rettangolo azzurro etichettato "Caratteristica Storica (f_his)" e un rettangolo viola chiaro etichettato "Caratteristica di Destinazione (f_des)", tramite MLP; i due vengono quindi inviati a un modulo trapezoidale verde, etichettato come "Attention Fusion", con una formula implicita del meccanismo di attenzione QKV all'interno, che produce la caratteristica di intenzione del conducente fusa f_in. La terza fase è il modulo di fusione delle caratteristiche spazio-temporali: f_in e f_e sono concatenati in una caratteristica mista h_fus, che viene inserita in un modulo trapezoidale blu scuro, etichettato come "Mamba Fusion Module", utilizzando l'architettura Mamba per modellare in modo efficiente le dipendenze a lungo raggio, producendo la caratteristica fusa finale f_fus. Visivamente, questo modulo può essere aggiunto con texture ondulate o un simbolo "M" per enfatizzare la sua capacità di modellazione della sequenza. La quarta fase è il modulo di generazione del rumore guidato dalla condizione: f_fus viene inserito in due moduli trapezoidali arancioni paralleli, quello a sinistra etichettato "Mean Decoder (μ̄_θ)" e quello a destra etichettato "Std Decoder (σ̄_θ)", che insieme definiscono una distribuzione del rumore guidata; l'output è collegato a una scatola rettangolare con uno sfondo a texture ondulata, etichettata come ""
Con il rapido sviluppo della tecnologia di soccorso di emerg...