El modelo es una red de superresolución espectral con una arquitectura Encoder-Transformer-Decoder, que consta de tres flujos de información: una rama principal RGB, una rama auxiliar previa hiperespectral (HSI) y una rama de fusión y reconstrucción de características. El extremo de entrada incluye dos entradas: 1) Una imagen RGB de baja dimensión como entrada principal. 2) Una imagen hiperespectral auxiliar con desajuste espacial, utilizada solo para proporcionar información previa espectral. El **Codificador RGB** consta de varias capas convolucionales y bloques residuales, utilizados para extraer características espaciales de bajo y medio nivel de la imagen RGB, y genera un tensor de características intermedio manteniendo una alta resolución espacial. La rama auxiliar del **Codificador Previo HSI** primero extrae características de la imagen hiperespectral auxiliar y luego descompone las características hiperespectrales tridimensionales en un conjunto de vectores de base espectral unidimensionales utilizando un módulo de Descomposición de Bajo Rango basado en CP para representar el previo espectral global. Esta rama no retiene información de ubicación espacial y solo genera una representación espectral de bajo rango. Posteriormente, el previo espectral se introduce en múltiples **Capas de Proyección Adaptativa de Bajo Rango**. Cada capa de proyección mapea los vectores de base espectral de bajo rango a un espacio de características consistente con los canales de características RGB y modula las características RGB a través de pesos de atención para lograr una guía espectral a nivel de característica en lugar de una fusión a nivel de píxel. El módulo Transformer/Atención se encuentra en el medio de la red y se utiliza para modelar dependencias de largo alcance en las características fusionadas. Este módulo puede incluir mecanismos de autoatención multidimensionales que actúan sobre las dimensiones espaciales y espectrales/de canal para mejorar las capacidades de modelado del contexto global. El **Decodificador** consta de varias capas convolucionales o redes de alimentación directa (FFN) y se utiliza para mapear gradualmente las características fusionadas al espacio de la imagen hiperespectral, generando finalmente una imagen hiperespectral de alta resolución. La etapa de decodificación puede incluir conexiones residuales para agregar directamente características RGB superficiales o mapeos de entrada a la salida para estabilizar el entrenamiento. Las características clave de toda la red son: El HSI auxiliar no participa en la alineación espacial y solo proporciona previos espectrales globales a través de la descomposición de bajo rango. Las características RGB emprenden el modelado de la estructura espacial. El previo espectral se inyecta en la red troncal a través de la proyección adaptativa de bajo rango y los mecanismos de atención. Finalmente, la reconstrucción de superresolución espectral se logra sin registro espacial.
A2' Color Cálido (Riesgo Medio-Alto): Adecuado para escenari...