
Представлена четкая и профессиональная схема архитектуры глубокого обучения вариационного автоэнкодера (VAE). Слева изображена сеть энкодера, состоящая из сверточных слоев, последовательно уменьшающая разрешение RGB-изображения 32×32. Энкодер выдает два вектора, обозначенных как «μ(x)» и «σ(x)». В центре блок латентного пространства иллюстрирует трюк репараметризации: z = μ + σ ⊙ ε, где ε взято из стандартного гауссовского распределения. Справа сеть декодера реконструирует изображение, используя надежную архитектуру, включающую остаточные блоки, модули внимания и слои повышения дискретизации PixelShuffle, последовательно увеличивая пространственное разрешение обратно до 32×32×3. Стрелки указывают поток данных от энкодера к латентному пространству и к декодеру. Дизайн минималистичный и плоский, с белым фоном, четкими надписями и академическим стилем, подходящим для презентации по машинному обучению.
Процесс разворачивается в пять основных этапов: ввод данных,...