O modelo é uma rede de super-resolução espectral com uma arquitetura Encoder-Transformer-Decoder, consistindo em três fluxos de informação: um ramo principal RGB, um ramo auxiliar de informação prévia hiperespectral (HSI) e um ramo de fusão e reconstrução de características. A extremidade de entrada inclui duas entradas: 1) Uma imagem RGB de baixa dimensão como entrada principal. 2) Uma imagem hiperespectral auxiliar com desalinhamento espacial, usada apenas para fornecer informações prévias espectrais. O **Encoder RGB** consiste em várias camadas convolucionais e blocos residuais, usados para extrair características espaciais de baixo e médio nível da imagem RGB, e produz um tensor de características intermediário, mantendo alta resolução espacial. O ramo auxiliar **Encoder de Informação Prévia HSI** primeiro extrai características da imagem hiperespectral auxiliar e, em seguida, decompõe as características hiperespectrais tridimensionais em um conjunto de vetores de base espectral unidimensionais usando um módulo de Decomposição de Baixa Patente baseada em CP para representar a informação prévia espectral global. Este ramo não retém informações de localização espacial e apenas produz uma representação espectral de baixa patente. Subsequentemente, a informação prévia espectral é alimentada em múltiplas **Camadas de Projeção Adaptativa de Baixa Patente**. Cada camada de projeção mapeia os vetores de base espectral de baixa patente para um espaço de características consistente com os canais de características RGB e modula as características RGB através de pesos de atenção para alcançar orientação espectral em nível de característica, em vez de fusão em nível de pixel. O módulo Transformer/Atenção está localizado no meio da rede e é usado para modelar dependências de longo alcance nas características fundidas. Este módulo pode incluir mecanismos de autoatenção multidimensional que atuam nas dimensões espacial e espectral/canal para aprimorar as capacidades de modelagem de contexto global. O **Decoder** consiste em várias camadas convolucionais ou redes feed-forward (FFN) e é usado para mapear gradualmente as características fundidas para o espaço da imagem hiperespectral, eventualmente produzindo uma imagem hiperespectral de alta resolução. O estágio de decodificação pode incluir conexões residuais para adicionar diretamente características RGB rasas ou mapeamentos de entrada à saída para estabilizar o treinamento. As principais características de toda a rede são: O HSI auxiliar não participa do alinhamento espacial e fornece apenas informações prévias espectrais globais através da decomposição de baixa patente. As características RGB realizam a modelagem da estrutura espacial. A informação prévia espectral é injetada na rede backbone através de projeção adaptativa de baixa patente e mecanismos de atenção. Finalmente, a reconstrução de super-resolução espectral é alcançada sem registro espacial.
Um roteiro técnico para um mecanismo de autenticação bidirec...