Ein Diagramm, das den Modell-Workflow veranschaulicht, beginnend mit der Fahrzeugtrajektorie und der Umfeldwahrnehmungsszene auf der linken Seite. Das Diagramm zeigt eine hellgraue Straßenebene mit mehreren farbigen Autosymbolen (rot für das Ego-Fahrzeug, blau/grün für umliegende Fahrzeuge). Die historische Trajektorie des Ego-Fahrzeugs ist durch einen dicken, durchgezogenen Pfeil gekennzeichnet, und der dynamische Einflussbereich der umliegenden Fahrzeuge ist durch gestrichelte Kreise umschlossen. Straßenstrukturen, wie Fahrbahnmarkierungen, sind mit dünnen grauen Linien oder kleinen Symbolen markiert. Insgesamt besteht der Systemeingang aus multimodalen Beobachtungsdaten, einschließlich des historischen Pfads des Ego-Fahrzeugs, des Bewegungszustands benachbarter Fahrzeuge und der statischen Straßentopologie. Als nächstes tritt der Prozess in die zweite Phase ein: das Feature-Extraktionsmodul, das in zwei parallele Pfade unterteilt ist: raumzeitliche Interaktions-Features und Fahrerabsichts-Features. Der obere Pfad ist für die Extraktion raumzeitlicher Interaktions-Features: Die historischen Koordinaten (x_t, y_t) des Ego-Fahrzeugs werden in einen Satz von drei blauen 3D-Würfelblöcken eingegeben, die einen GRU-Encoder darstellen und als "Zeitliches Interaktions-Feature" bezeichnet werden, wobei das zeitliche Feature f_e^t ausgegeben wird. Gleichzeitig werden umliegende Fahrzeuge und Straßenstrukturen in einen Satz gelber 3D-Würfelblöcke eingegeben, die ein GAT-Graph-Attention-Netzwerk darstellen und als "Räumliches Interaktions-Feature" bezeichnet werden, wobei das räumliche Feature f_e^s ausgegeben wird. Die beiden werden durch ein grünes trapezförmiges Modul verkettet, das als "Concat(f_e^t, f_e^s)" bezeichnet wird, wodurch letztendlich das externe Interaktions-Feature f_e ausgegeben wird. Der untere Pfad ist für die Extraktion von Fahrerabsichts-Features: Die historische Trajektorie X wird in eine orangefarbene rechteckige Box eingegeben, die als "Ziel-Decoder" bezeichnet wird, wobei das vorhergesagte Ziel D̂ ausgegeben wird. Anschließend durchläuft die Ausgabe zwei parallele rechteckige Module: ein hellblaues Rechteck mit der Bezeichnung "Verlaufs-Feature (f_his)" und ein hellviolettes Rechteck mit der Bezeichnung "Ziel-Feature (f_des)", aus denen Features durch ein MLP extrahiert werden. Diese Features werden dann in ein grünes trapezförmiges Modul eingespeist, das als "Attention Fusion" bezeichnet wird und intern die QKV-Attention-Mechanismus-Formel impliziert, wobei das fusionierte Fahrerabsichts-Feature f_in ausgegeben wird. Die dritte Phase ist das Modul zur Fusion raumzeitlicher Features: f_in und f_e werden zu einem gemischten Feature h_fus verkettet, das in ein dunkelblaues trapezförmiges Modul eingegeben wird, das als "Mamba-Fusionsmodul" bezeichnet wird. Dieses Modul nutzt die Mamba-Architektur, um lange Abhängigkeiten effizient zu modellieren, und gibt das endgültige fusionierte Feature f_fus aus. Visuell kann dieses Modul eine wellenförmige Textur oder ein "M"-Symbol enthalten, um seine Sequenzmodellierungsfähigkeit hervorzuheben. Die vierte Phase ist das bedingungsgesteuerte Rauscherzeugungsmodul: f_fus wird in zwei parallele orangefarbene trapezförmige Module eingegeben, das linke mit der Bezeichnung "Mittelwert-Decoder (μ̄_θ)" und das rechte mit der Bezeichnung "Std-Decoder (σ̄_θ)". Diese beiden Module definieren gemeinsam eine geführte Rauschverteilung. Die Ausgabe verbindet sich mit einer rechteckigen Box mit einem wellenförmigen strukturierten Hintergrund, die mit "Geführt" beschriftet ist.
Zeichne eine Technologie-Roadmap. Technologie-Roadmap: Desig...