Das Modell ist ein spektrales Super-Resolution-Netzwerk mit einer Encoder-Transformer-Decoder-Architektur, bestehend aus drei Informationsströmen: einem RGB-Hauptzweig, einem Hilfs-Hyperspektral-(HSI)-Prior-Zweig und einem Feature-Fusions- und Rekonstruktionszweig. Das Eingangsende umfasst zwei Eingaben: 1) Ein niedrigdimensionales RGB-Bild als Haupteingabe. 2) Ein auxiliäres hyperspektrales Bild mit räumlicher Nichtübereinstimmung, das nur zur Bereitstellung spektraler Vorinformationen verwendet wird. Der **RGB-Encoder** besteht aus mehreren Faltungsschichten und Residualblöcken, die verwendet werden, um räumliche Low-Level- und Mid-Level-Features aus dem RGB-Bild zu extrahieren und einen intermediären Feature-Tensor auszugeben, während eine hohe räumliche Auflösung beibehalten wird. Der auxiliary **HSI-Prior-Encoder**-Zweig extrahiert zuerst Features aus dem auxiliary hyperspektralen Bild und zerlegt dann die dreidimensionalen hyperspektralen Features mithilfe eines CP-basierten Low-Rank-Dekompositionsmoduls in einen Satz eindimensionaler spektraler Basisvektoren, um die globale spektrale Prior darzustellen. Dieser Zweig behält keine räumlichen Positionsinformationen bei und gibt nur eine Low-Rank-Spektraldarstellung aus. Anschließend wird die spektrale Prior in mehrere **Adaptive Low-Rank-Projektionsschichten** eingespeist. Jede Projektionsschicht bildet die Low-Rank-Spektralbasisvektoren auf einen Feature-Raum ab, der mit den RGB-Feature-Kanälen übereinstimmt, und moduliert die RGB-Features durch Aufmerksamkeitsgewichte, um eine spektrale Führung auf Feature-Ebene anstelle einer Fusion auf Pixelebene zu erreichen. Das Transformer/Attention-Modul befindet sich in der Mitte des Netzwerks und wird verwendet, um Long-Range-Abhängigkeiten der fusionierten Features zu modellieren. Dieses Modul kann mehrdimensionale Selbstaufmerksamkeitsmechanismen beinhalten, die auf die räumlichen und spektralen/Kanal-Dimensionen wirken, um die globalen Kontextmodellierungsfähigkeiten zu verbessern. Der **Decoder** besteht aus mehreren Faltungsschichten oder Feed-Forward-Netzwerken (FFN) und wird verwendet, um die fusionierten Features schrittweise in den hyperspektralen Bildraum abzubilden und schließlich ein hochauflösendes hyperspektrales Bild auszugeben. Die Dekodierungsphase kann Residualverbindungen beinhalten, um flache RGB-Features oder Eingangsabbildungen direkt zur Ausgabe hinzuzufügen, um das Training zu stabilisieren. Die Hauptmerkmale des gesamten Netzwerks sind: Das auxiliary HSI nimmt nicht an der räumlichen Ausrichtung teil und stellt nur globale spektrale Priors durch Low-Rank-Dekomposition bereit. RGB-Features übernehmen die räumliche Strukturmodellierung. Die spektrale Prior wird durch adaptive Low-Rank-Projektion und Aufmerksamkeitsmechanismen in das Backbone-Netzwerk injiziert. Schließlich wird eine spektrale Super-Resolution-Rekonstruktion ohne räumliche Registrierung erreicht.
A2' Warme Farbe (Mittel-Hohes Risiko): Geeignet für Szenarie...