L'immagine di input viene prima denoise da un modulo di denoising, e poi entra nel modulo di fusione nel dominio della frequenza delle feature PSF per realizzare la deconvoluzione. Quest'ultimo ha due rami di deconvoluzione, uno per la deconvoluzione a livello di immagine e uno per la deconvoluzione a livello di feature. L'uso di doppi rami tiene conto di due problemi fondamentali negli scenari complessi di imaging sottomarino marino. Da un lato, la deconvoluzione a livello di immagine è suscettibile all'amplificazione del rumore e all'interferenza di artefatti. La deconvoluzione è essenzialmente un processo di potenziamento delle alte frequenze. Quando il rapporto segnale/rumore (SNR) è basso (come in ambienti di acque profonde con scarsa illuminazione e alta dispersione), e quando ci sono errori nella PSF, il rumore del sensore e gli errori di quantizzazione saranno significativamente amplificati, con conseguenti effetti di ringing, overshoot o texture false nell'immagine ricostruita. Questi artefatti possono essere erroneamente interpretati come caratteristiche del target dalle successive reti di riconoscimento, il che può ridurre la robustezza del riconoscimento. D'altra parte, il degrado a livello di feature non è modellato esplicitamente. Anche se l'immagine appare "nitida", le feature semantiche di alto livello estratte dalla rete neurale profonda possono comunque essere distorte a causa del degrado originale (ad esempio, offset della risposta dei bordi, attenuazione dell'energia della texture). Se si fa affidamento solo al ripristino a livello di immagine, non si può garantire che la discriminazione nello spazio delle feature venga ripristinata. Per il ramo di deconvoluzione a livello di immagine, l'immagine viene deconvoluta per generare la prima immagine ricostruita iniziale; per il ramo di deconvoluzione a livello di feature, l'immagine viene fatta passare attraverso un modulo di estrazione delle feature (FM) per ottenere una serie di mappe di feature, che vengono filtrate con il filtro inverso di Wiener e ripristinate alla seconda immagine ricostruita iniziale attraverso un modulo di ricostruzione delle feature. Successivamente, le due immagini ricostruite iniziali vengono sovrapposte e immesse in un modulo di fusione residua multi-scala, e viene emessa l'immagine ricostruita nitida finale. Per favore, aiutami a disegnare il diagramma complessivo della struttura della rete basato su questo.
APPROVATO Viene presentato un diagramma causale pronto per ...