Un diagramma che illustra il flusso di lavoro del modello, partendo dalla traiettoria del veicolo e dalla scena di percezione ambientale sulla sinistra. Il diagramma raffigura un piano stradale grigio chiaro con multiple icone di auto colorate (rosso per il veicolo ego, blu/verde per i veicoli circostanti). La traiettoria storica del veicolo ego è indicata da una freccia spessa continua, e il raggio di influenza dinamica dei veicoli circostanti è racchiuso da cerchi tratteggiati. Le strutture stradali, come le linee di corsia, sono contrassegnate con sottili linee grigie o piccole icone. Complessivamente, l'input del sistema consiste in dati di osservazione multi-modali che includono il percorso storico del veicolo ego, lo stato di movimento dei veicoli vicini e la topologia statica della strada. Successivamente, il processo entra nella seconda fase: il modulo di estrazione delle caratteristiche, che è diviso in due percorsi paralleli: caratteristiche di interazione spazio-temporale e caratteristiche di intenzione del conducente. Il percorso superiore è per l'estrazione delle caratteristiche di interazione spazio-temporale: Le coordinate storiche del veicolo ego (x_t, y_t) vengono inserite in un insieme di tre blocchi cubici 3D blu, che rappresentano un encoder GRU, etichettato come "Temporal Interaction Feature", che restituisce la caratteristica temporale f_e^t. Contemporaneamente, i veicoli circostanti e le strutture stradali vengono inseriti in un insieme di blocchi cubici 3D gialli, che rappresentano una rete di attenzione grafica GAT, etichettata come "Spatial Interaction Feature", che restituisce la caratteristica spaziale f_e^s. I due sono concatenati attraverso un modulo trapezoidale verde, etichettato come "Concat(f_e^t, f_e^s)", che alla fine restituisce la caratteristica di interazione esterna f_e. Il percorso inferiore è per l'estrazione delle caratteristiche di intenzione del conducente: La traiettoria storica X viene inserita in una scatola rettangolare arancione, etichettata come "Destination Decoder", che restituisce la destinazione prevista D̂. Successivamente, l'output passa attraverso due moduli rettangolari paralleli: un rettangolo azzurro etichettato "History Feature (f_his)" e un rettangolo viola chiaro etichettato "Destination Feature (f_des)", dai quali le caratteristiche vengono estratte da un MLP. Queste caratteristiche vengono quindi inserite in un modulo trapezoidale verde, etichettato come "Attention Fusion", che implica internamente la formula del meccanismo di attenzione QKV, restituendo la caratteristica di intenzione del conducente fusa f_in. La terza fase è il modulo di fusione delle caratteristiche spazio-temporali: f_in e f_e sono concatenati in una caratteristica mista h_fus, che viene inserita in un modulo trapezoidale blu scuro, etichettato come "Mamba Fusion Module". Questo modulo utilizza l'architettura Mamba per modellare in modo efficiente le dipendenze a lungo raggio, restituendo la caratteristica fusa finale f_fus. Visivamente, questo modulo può incorporare una trama ondulata o un simbolo "M" per enfatizzare la sua capacità di modellazione della sequenza. La quarta fase è il modulo di generazione del rumore guidato dalla condizione: f_fus viene inserito in due moduli trapezoidali arancioni paralleli, quello a sinistra etichettato "Mean Decoder (μ̄_θ)" e quello a destra etichettato "Std Decoder (σ̄_θ)". Questi due moduli definiscono congiuntamente una distribuzione del rumore guidata. L'output si collega a una scatola rettangolare con uno sfondo a trama ondulata, etichettata come "Guided "
Disegna una roadmap tecnologica. Roadmap tecnologica: Proget...