Um diagrama ilustrando o fluxo de trabalho do modelo, começando pela trajetória do veículo e cena de percepção ambiental à esquerda. O diagrama representa um plano de estrada cinza claro com múltiplos ícones de carros coloridos (vermelho para o veículo ego, azul/verde para os veículos ao redor). A trajetória histórica do veículo ego é indicada por uma seta sólida grossa, e o alcance de influência dinâmica dos veículos ao redor é delimitado por círculos tracejados. Estruturas da estrada, como faixas de rodagem, são marcadas com linhas finas cinzas ou pequenos ícones. No geral, a entrada do sistema consiste em dados de observação multi-modal, incluindo o caminho histórico do veículo ego, o estado de movimento dos veículos vizinhos e a topologia estática da estrada. Em seguida, o processo entra na segunda etapa: o módulo de extração de características, que é dividido em dois caminhos paralelos: características de interação espaço-temporal e características de intenção do motorista. O caminho superior é para a extração de características de interação espaço-temporal: As coordenadas históricas do veículo ego (x_t, y_t) são inseridas em um conjunto de três blocos cúbicos 3D azuis, representando um codificador GRU, rotulado como "Característica de Interação Temporal", produzindo a característica temporal f_e^t. Simultaneamente, os veículos ao redor e as estruturas da estrada são inseridos em um conjunto de blocos cúbicos 3D amarelos, representando uma rede de atenção de grafo GAT, rotulada como "Característica de Interação Espacial", produzindo a característica espacial f_e^s. Os dois são concatenados através de um módulo trapezoidal verde, rotulado como "Concat(f_e^t, f_e^s)", produzindo, em última análise, a característica de interação externa f_e. O caminho inferior é para a extração de características de intenção do motorista: A trajetória histórica X é inserida em uma caixa retangular laranja, rotulada como "Decodificador de Destino", produzindo o destino previsto D̂. Subsequentemente, a saída passa por dois módulos retangulares paralelos: um retângulo azul claro rotulado como "Característica Histórica (f_his)" e um retângulo roxo claro rotulado como "Característica de Destino (f_des)", dos quais as características são extraídas por um MLP. Essas características são então alimentadas em um módulo trapezoidal verde, rotulado como "Fusão de Atenção", implicando internamente a fórmula do mecanismo de atenção QKV, produzindo a característica de intenção do motorista fundida f_in. A terceira etapa é o módulo de fusão de características espaço-temporal: f_in e f_e são concatenados em uma característica mista h_fus, que é inserida em um módulo trapezoidal azul escuro, rotulado como "Módulo de Fusão Mamba". Este módulo utiliza a arquitetura Mamba para modelar eficientemente dependências de longo alcance, produzindo a característica fundida final f_fus. Visualmente, este módulo pode incorporar uma textura ondulada ou um símbolo "M" para enfatizar sua capacidade de modelagem de sequência. A quarta etapa é o módulo de geração de ruído condicionado: f_fus é inserido em dois módulos trapezoidais laranjas paralelos, o da esquerda rotulado como "Decodificador de Média (μ̄_θ)" e o da direita rotulado como "Decodificador de Desvio Padrão (σ̄_θ)". Esses dois módulos definem conjuntamente uma distribuição de ruído guiado. A saída se conecta a uma caixa retangular com um fundo texturizado ondulado, rotulada como "Guiado ""
Com o rápido desenvolvimento da tecnologia de resgate emerge...