GAN卷土重来:10亿参数的GigaGAN效果堪比扩散模型机器学习算法工程师关注共 1029字,需浏览 3分钟 ·2023-03-11 14:42点蓝色字关注“机器学习算法工程师”设为星标,干货直达!自从 DALL·E 2 之后,在图像生成方面扩散模型替代GAN成了主流方向,比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日, Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿(1B)的GAN模型:GigaGAN,其在文生图效果上接近扩散模型效果,而且推理速度更快,生成512x512大小图像只需要0.13s,生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能,比如latent插值,风格混合,以及向量运算等。GigaGAN改进了StyleGAN架构,采用两阶段训练策略:一个是64x64的图像生成器和一个512x512的图像超分2器,其图像生成器架构如下所示(这里也是采用CLIP text encoder来引入text condition):GigaGAN在 LAION2B-en和 COYO-700M数据集上训练,其在COCO数据集上的FID达到9.09,超过stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s):GigaGAN除了文生图能力,还可以实现可控的合成,比如风格混合,如下图所示:更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/推荐阅读深入理解生成模型VAEDropBlock的原理和实现SOTA模型Swin Transformer是如何炼成的!有码有颜!你要的生成模型VQ-VAE来了!集成YYDS!让你的模型更快更准!辅助模块加速收敛,精度大幅提升!移动端实时的NanoDet-Plus来了!SimMIM:一种更简单的MIM方法SSD的torchvision版本实现详解机器学习算法工程师 一个用心的公众号浏览 130点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 GAN、扩散模型应有尽有,生成模型专属搜索引擎Modelverse来了AI算法与图像处理0图像生成王者不是GAN?扩散模型最近有点火:靠加入类别条件,效果...益达Charmve010亿参数的AI模型SEER「一视同仁」:服务富人,也服务全世界新智元0扩散模型:DDPM的两种数学推导机器学习实验室10谷歌推出新模型「pQRNN」,少量参数下进行文本分类,性能堪比BERT新智元0扩散模型的原理及实现(Pytorch)来源:机器学习算法那些事本文约6500字,建议阅读13分钟本文完整的介绍了有关扩散模型的必要知识,并且使用Pytorch进行了完整的实现。扩散模型的导火索,是始于2020 年所提出的DDPM(Denoising Diffusion Probabilis...GAN掉人脸识别系统?GAN模型「女扮男装」机器学习与生成对抗网络0扩散模型在文本生成领域的应用新智元0扩散模型,AIGC时代不得不了解的关键技术机器学习与生成对抗网络0文化的扩散本书拟将史密斯的《文化扩散论》和《早期文化的迁移》合并出版。《文化扩散论》旨在讨论这一理论的合理性。点赞 评论 收藏 分享 手机扫一扫分享分享 举报
自从 DALL·E 2 之后,在图像生成方面扩散模型替代GAN成了主流方向,比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日, Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿(1B)的GAN模型:GigaGAN,其在文生图效果上接近扩散模型效果,而且推理速度更快,生成512x512大小图像只需要0.13s,生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能,比如latent插值,风格混合,以及向量运算等。
GigaGAN改进了StyleGAN架构,采用两阶段训练策略:一个是64x64的图像生成器和一个512x512的图像超分2器,其图像生成器架构如下所示(这里也是采用CLIP text encoder来引入text condition):GigaGAN在 LAION2B-en和 COYO-700M数据集上训练,其在COCO数据集上的FID达到9.09,超过stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s):GigaGAN除了文生图能力,还可以实现可控的合成,比如风格混合,如下图所示:更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/