Il modello è una rete di super-risoluzione spettrale con un'architettura Encoder-Transformer-Decoder, composta da tre flussi di informazioni: un ramo principale RGB, un ramo ausiliario di priorità iperspettrale (HSI) e un ramo di fusione e ricostruzione delle caratteristiche. L'estremità di input include due input: 1) Un'immagine RGB a bassa dimensione come input principale. 2) Un'immagine iperspettrale ausiliaria con disallineamento spaziale, utilizzata solo per fornire informazioni a priori spettrali. L'**Encoder RGB** è costituito da diversi livelli convoluzionali e blocchi residui, utilizzati per estrarre caratteristiche spaziali di basso e medio livello dall'immagine RGB, e produce un tensore di caratteristiche intermedio mantenendo un'alta risoluzione spaziale. Il ramo ausiliario **Encoder di Priorità HSI** estrae prima le caratteristiche dall'immagine iperspettrale ausiliaria, e poi decompone le caratteristiche iperspettrali tridimensionali in un insieme di vettori di base spettrali unidimensionali utilizzando un modulo di Decomposizione a Basso Rango basato su CP per rappresentare la priorità spettrale globale. Questo ramo non conserva le informazioni sulla posizione spaziale e produce solo una rappresentazione spettrale a basso rango. Successivamente, la priorità spettrale viene alimentata a più **Livelli di Proiezione Adattiva a Basso Rango**. Ogni livello di proiezione mappa i vettori di base spettrali a basso rango in uno spazio di caratteristiche coerente con i canali di caratteristiche RGB, e modula le caratteristiche RGB attraverso pesi di attenzione per ottenere una guida spettrale a livello di caratteristiche piuttosto che una fusione a livello di pixel. Il modulo Transformer/Attenzione si trova al centro della rete e viene utilizzato per modellare le dipendenze a lungo raggio sulle caratteristiche fuse. Questo modulo può includere meccanismi di auto-attenzione multidimensionale che agiscono sulle dimensioni spaziali e spettrali/canale per migliorare le capacità di modellazione del contesto globale. Il **Decoder** è costituito da diversi livelli convoluzionali o reti feed-forward (FFN) e viene utilizzato per mappare gradualmente le caratteristiche fuse nello spazio dell'immagine iperspettrale, producendo infine un'immagine iperspettrale ad alta risoluzione. La fase di decodifica può includere connessioni residue per aggiungere direttamente caratteristiche RGB superficiali o mappature di input all'output per stabilizzare l'addestramento. Le caratteristiche chiave dell'intera rete sono: L'HSI ausiliario non partecipa all'allineamento spaziale e fornisce solo priorità spettrali globali attraverso la decomposizione a basso rango. Le caratteristiche RGB intraprendono la modellazione della struttura spaziale. La priorità spettrale viene iniettata nella rete backbone attraverso la proiezione adattiva a basso rango e i meccanismi di attenzione. Infine, la ricostruzione della super-risoluzione spettrale viene ottenuta senza registrazione spaziale.
A2' Colore Caldo (Rischio Medio-Alto): Adatto per scenari di...