Transformer也能生成图像
Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由 CNN 主导的任务上暂露头角。近日,加州大学圣迭戈分校与 Google Research 的一项研究提出了使用视觉 Transformer 来训练 GAN。为了有效应用该方法,研究者还提出了多项改进技巧,使新方法在一些指标上可比肩前沿 CNN 模型。
![](https://filescdn.proginn.com/782fd4cdd308b6b6231a0f9e39522be7/0d58256cea1a63f4c1ef168a393f7e2e.webp)
![](https://filescdn.proginn.com/f062dc3120d2d53b3dcca3c980ee66ee/6aeb0e6c983a22b46a25ddc6dfaa52e3.webp)
自调制型层范数(SLN)。新的做法不是将噪声向量 z 作为输入发送给 ViT,而是使用 z 来调制层范数运算。之所以称这样的操作为自调制,是因为该过程无需外部信息;
用于图块生成的隐式神经表征。为了学习从 patch 嵌入到 patch 像素值的连续映射,研究者使用了隐式神经表征。当结合傅里叶特征或正弦激活函数一起使用时,隐式表征可将所生成的样本空间约束到平滑变化的自然信号空间。研究发现,在使用基于 ViT 的生成器训练 GAN 时,隐式表征的作用尤其大。
![](https://filescdn.proginn.com/c09fa3b387e3bb26ad994eed0bb14de8/23e8762efb1fa20f06b506eab14b923a.webp)
![](https://filescdn.proginn.com/dd8ea46f92253f380173054615c6b3fb/f86597b145bcce6a6fbd1b31a153dcc8.webp)
![](https://filescdn.proginn.com/1d91e438ea471548a203b46d7f597c3f/5cd9f4d08d5dca7f936bfdc4af5766b8.webp)
![](https://filescdn.proginn.com/83e28094621d2cdcd80a7190bda28b75/314695bf746e2fcd22e28a78d607ec41.webp)
© THE END
转载请联系原公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
![](https://filescdn.proginn.com/d709f3375a7b59538beb4cce535e7066/5d0e6db93215c921e35e394c695925f2.webp)
点个在看 paper不断!
评论