
Viene presentato un diagramma pulito e professionale dell'architettura di deep learning di un Autoencoder Variazionale (VAE). A sinistra, una rete encoder, composta da strati convoluzionali, sottocampiona progressivamente un'immagine RGB 32×32. L'encoder produce due vettori etichettati come "μ(x)" e "σ(x)". Al centro, un blocco dello spazio latente illustra il trucco della riparametrizzazione: z = μ + σ ⊙ ε, con ε campionato da una distribuzione gaussiana standard. A destra, una rete decoder ricostruisce l'immagine utilizzando un'architettura robusta che incorpora blocchi residui, moduli di attenzione e strati di upsampling PixelShuffle, aumentando progressivamente la risoluzione spaziale fino a 32×32×3. Le frecce indicano il flusso di dati dall'encoder allo spazio latente al decoder. Il design è minimalista e piatto, con uno sfondo bianco, etichette chiare e uno stile accademico, adatto per una presentazione di machine learning.
Il processo si sviluppa in cinque fasi fondamentali: input d...