【干货】文本生成图像的前世今生!
视学算法
共 10781字,需浏览 22分钟
·
2022-06-08 19:46
目前多模态任务成为行业热点,本文梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。
编码的文本
CLIP 文本嵌入
扩散时间步长的嵌入
噪声 CLIP 图像嵌入
最终的嵌入,其来自 Transformer 的输出用于预测无噪声 CLIP 图像嵌入。
© THE END
转载请联系原公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
点个在看 paper不断!
评论