blog - 佐尹云

自 2014 年 Ian Goodfellow 及其团队提出以来，生成对抗网络（GAN）彻底改变了人工智能领域。这类网络由两个神经网络组成——生成器和判别器——通过对抗训练同时进行训练。

最初的 GAN

最早的 GAN 架构引入了一种全新的生成建模方法。生成器网络生成样本（如图像），而判别器网络评估这些样本。生成器旨在生成与真实数据难以区分的样本，而判别器则致力于准确区分真实样本与生成样本。

然而，早期的 GAN 面临诸多挑战，包括训练不稳定、模式崩溃（即生成器生成的样本种类有限），以及难以生成高分辨率图像的问题。

2017 年，NVIDIA 的研究人员提出了 Progressive GAN，解决了原始架构的许多限制。该方法采用渐进式训练策略，从低分辨率图像开始，逐步增加处理高分辨率细节的层。

这一渐进式训练方法显著提升了训练稳定性，并实现了高达 1024×1024 像素的高分辨率图像生成，图像细节真实感大幅提升。

在 Progressive GAN 的基础上，NVIDIA 于 2018 年提出了 StyleGAN，引入基于风格的生成器架构，前所未有地控制了生成图像的特征。它将高层属性（如姿势和脸型）与随机变化（如雀斑和头发细节）分离。

StyleGAN 的几个关键创新包括：

2020 年，NVIDIA 推出了 StyleGAN-2，解决了原版 StyleGAN 存在的“水波状”伪影等问题。该版本重新设计了归一化、正则化和渐进式增长机制，极大地提升了图像质量。

StyleGAN-2 的主要改进包括：

2021 年推出的 StyleGAN-3 主要致力于消除“纹理粘附”现象，即纹理特征固定在图像坐标上而不能随对象自然移动。该版本通过改进架构，提高了平移与旋转的等变性。

StyleGAN-3 的亮点包括：

从原始 GAN 到 StyleGAN-3 的演进，推动了以下应用的发展：

随着 GAN 技术不断演进，未来将会在以下方面看到更多突破：

从 GAN 到 StyleGAN-3 的发展历程展示了生成建模领域的惊人进步，使得图像合成变得更加真实且可控。随着技术日趋成熟，它们将在娱乐、艺术、医疗和科学可视化等多个领域开启全新可能。