返回博客
生成式 AI

生成对抗网络的演进:从 GAN 到 StyleGAN-3

阅读时间:8 分钟
2023年5月15日
By Alex Chen 博士
Article hero showing GAN-generated art

自 2014 年 Ian Goodfellow 及其团队提出以来,生成对抗网络(GAN)彻底改变了人工智能领域。这类网络由两个神经网络组成——生成器和判别器——通过对抗训练同时进行训练。

最初的 GAN

最早的 GAN 架构引入了一种全新的生成建模方法。生成器网络生成样本(如图像),而判别器网络评估这些样本。生成器旨在生成与真实数据难以区分的样本,而判别器则致力于准确区分真实样本与生成样本。

然而,早期的 GAN 面临诸多挑战,包括训练不稳定、模式崩溃(即生成器生成的样本种类有限),以及难以生成高分辨率图像的问题。

Progressive GAN:进步的一步

2017 年,NVIDIA 的研究人员提出了 Progressive GAN,解决了原始架构的许多限制。该方法采用渐进式训练策略,从低分辨率图像开始,逐步增加处理高分辨率细节的层。

这一渐进式训练方法显著提升了训练稳定性,并实现了高达 1024×1024 像素的高分辨率图像生成,图像细节真实感大幅提升。

StyleGAN:控制图像合成

在 Progressive GAN 的基础上,NVIDIA 于 2018 年提出了 StyleGAN,引入基于风格的生成器架构,前所未有地控制了生成图像的特征。它将高层属性(如姿势和脸型)与随机变化(如雀斑和头发细节)分离。

StyleGAN 的几个关键创新包括:

  • 一个将输入潜码映射到中间潜空间的映射网络
  • 每层卷积中使用自适应实例归一化(AdaIN)来控制风格
  • 引入随机性来增强图像的多样性

StyleGAN-2:架构优化

2020 年,NVIDIA 推出了 StyleGAN-2,解决了原版 StyleGAN 存在的“水波状”伪影等问题。该版本重新设计了归一化、正则化和渐进式增长机制,极大地提升了图像质量。

StyleGAN-2 的主要改进包括:

  • 重新设计的归一化技术
  • 路径长度正则化
  • 取消渐进式增长,采用残差网络设计

StyleGAN-3:解决混叠问题

2021 年推出的 StyleGAN-3 主要致力于消除“纹理粘附”现象,即纹理特征固定在图像坐标上而不能随对象自然移动。该版本通过改进架构,提高了平移与旋转的等变性。

StyleGAN-3 的亮点包括:

  • 无混叠生成网络
  • 使用傅里叶特征提高等变性
  • 过滤非线性激活以防止混叠

影响与应用

从原始 GAN 到 StyleGAN-3 的演进,推动了以下应用的发展:

  • 逼真图像生成
  • 图像到图像转换
  • 人脸编辑与操作
  • 虚拟试衣系统
  • 用于训练其他 AI 模型的数据增强

未来方向

随着 GAN 技术不断演进,未来将会在以下方面看到更多突破:

  • 多模态生成(结合文本、图像等)
  • 对生成内容的控制能力增强
  • 降低计算资源需求
  • 更好地与其他 AI 技术集成

从 GAN 到 StyleGAN-3 的发展历程展示了生成建模领域的惊人进步,使得图像合成变得更加真实且可控。随着技术日趋成熟,它们将在娱乐、艺术、医疗和科学可视化等多个领域开启全新可能。