GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型

机器学习算法工程师

共 1029字，需浏览 3分钟

·

2023-03-11 14:42

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

自从 DALL·E 2 之后，在图像生成方面扩散模型替代GAN成了主流方向，比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日， Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿（1B）的GAN模型：GigaGAN，其在文生图效果上接近扩散模型效果，而且推理速度更快，生成512x512大小图像只需要0.13s，生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能，比如latent插值，风格混合，以及向量运算等。

GigaGAN

改进了StyleGAN架构，采用两阶段训练策略：一个是64x64的图像生成器和一个512x512的图像超分2器，其图像生成器架构如下所示（这里也是采用CLIP text encoder来引入text condition）：

GigaGAN

在 LAION2B-en和 COYO-700M数据集上训练，其在COCO数据集上的FID达到9.09，超过stable diffusion 1.5，推理速度比stable diffusion快20倍多（2.9s vs 0.13s）：

GigaGAN

除了文生图能力，还可以实现可控的合成，比如风格混合，如下图所示：

更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/

推荐阅读

深入理解生成模型VAE

DropBlock的原理和实现

SOTA模型Swin Transformer是如何炼成的!

有码有颜！你要的生成模型VQ-VAE来了！

集成YYDS！让你的模型更快更准！

辅助模块加速收敛，精度大幅提升！移动端实时的NanoDet-Plus来了！

SimMIM：一种更简单的MIM方法

SSD的torchvision版本实现详解

机器学习算法工程师

一个用心的公众号

浏览 130

点赞

收藏

分享

举报

评论

图片

表情

GAN、扩散模型应有尽有，生成模型专属搜索引擎Modelverse来了

AI算法与图像处理

图像生成王者不是GAN?扩散模型最近有点火:靠加入类别条件,效果...

10亿参数的AI模型SEER「一视同仁」：服务富人，也服务全世界

扩散模型：DDPM的两种数学推导

机器学习实验室

谷歌推出新模型「pQRNN」，少量参数下进行文本分类，性能堪比BERT

扩散模型的原理及实现（Pytorch）

来源：机器学习算法那些事本文约6500字，建议阅读13分钟本文完整的介绍了有关扩散模型的必要知识，并且使用Pytorch进行了完整的实现。扩散模型的导火索，是始于2020 年所提出的DDPM（Denoising Diffusion Probabilis...

GAN掉人脸识别系统？GAN模型「女扮男装」

机器学习与生成对抗网络

扩散模型在文本生成领域的应用

扩散模型，AIGC时代不得不了解的关键技术

机器学习与生成对抗网络

文化的扩散

本书拟将史密斯的《文化扩散论》和《早期文化的迁移》合并出版。《文化扩散论》旨在讨论这一理论的合理性。

点赞

收藏

分享

举报