阿里开源新型图像个性化框架MS-Diffusion,无需微调一键参考多个主题
共 2841字,需浏览 6分钟
·
2024-06-24 22:00
极市导读
用户通过少量主题参考图,无需微调即可一键生成与多种文本概念结合的新图片。该项目已开源。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
图像个性化是当今的热门研究主题之一,支持用户提供少量主题参考图,让模型学习到给定主题的概念,并和各种文本概念结合,自由创作出各种各样的新图片。然而现有图像个性化方法大都基于DreamBooth框架,需要对每个特定的主题进行微调,带来了不小的训练开销;Zero-shot的个性化框架如IP-Adapter,尽管支持无微调的个性化,其图像和文本的保真度较低,且不支持多个给定主题的组合。那么个性化方法能不能在高保度的前提下,能够无需微调地参考单个或多个给定主题呢?
项目主页:https://ms-diffusion.github.io/
GitHub地址:https://github.com/MS-Diffusion/MS-Diffusion
HuggingFace地址:https://huggingface.co/doge1516/MS-Diffusion
论文地址:https://arxiv.org/abs/2406.07209
针对这些问题,阿里联合浙大提出了新型图像个性化框架MS-Diffusion,在满足了上面提到的功能之外,效果也是十分惊人:
不论是单个主题还是多个主题,MS-Diffusion都可以在满足图像和文本条件控制的情况下,生成高质量的结果。尤其在多物体生成中,MS-Diffusion支持动物、物体和穿着等多种类型的组合,且没有出现物体之间互相影响的情况。要知道这些生成都是不需要推理时微调的,也就意味着用户可以像使用Stable Diffusion一样方便地使用MS-Diffusion。
与此同时,MS-Diffusion还具有较高的功能性和可扩展性。它支持显示的layout控制,用户可以让不同的主题生成在指定的区域。它还支持和ControlNet结合,在完成个性化任务的同时引入深度图、边缘图、姿态等一系列条件的控制:
技术原理
MS-Diffusion的模型架构比较简洁,在原始Stable Diffusion的基础上,它为图像条件的注入设计了一条通路。图像经过预训练的Encoder后,通过Grounding Resampler映射到Stable Diffusion的跨注意力条件空间中,这个过程每张输入的参考图像彼此独立。接着类似于IP-Adapter,MS-Diffusion也为图像条件设计了独立于文本条件的跨注意力结构,从而有效地将其作用到扩散模型的生成过程。
MS-Diffusion的核心黑科技在于,它引入了layout也就是位置信息的辅助。负责映射图像embedding的Grounding Resampler是一个类似于Q-former的结构,MS-Diffusion用图像的描述短语和位置box来初始化原本随机的可学习query,相当于把额外的语义信息和位置信息与图像embedding做了一个整合,这对细节保真度的增强十分有意义。此外,MS-Diffusion利用multi-subject cross-attention将特定主题在跨注意力层的作用区域限定在了特定的区域,这对于多主题个性化生成十分关键,它不仅避免了不同主题之间的互相干扰,还把无关的区域(如背景)留给文本条件进行主导,这也是MS-Diffusion能在保证主题细节的同时拥有着显著高的文本保真度的主要原因。
作者还在论文提到,MS-Diffusion的效果一定程度上还来自于对大规模训练数据的精细化处理。为了获取多主题的训练数据,MS-Diffusion对单张图像的标题进行实体提取,再使用Grounding检测模型和SAM把多个主题从单张图像分离出来。另外,相较于IP-Adapter使用图文对作为训练数据,MS-Diffusion从视频里抽两帧,分别作为reference和ground truth,改善了“自己参考自己”所带来的“复制粘贴”问题。两帧中的多个物体还会经过一个额外的匹配过程,从而得到一个较精细的对应关系,并在训练时得到充分利用。
实验结果
MS-Diffusion在论文中与接近10种已开源的个性化方法做了定量比较。无论是图像保真度DINO,还是文本保真度CLIP-T,MS-Diffusion都取得了更优秀的性能。作者还在论文中特别指出,相较于其他方法,MS-Diffusion更倾向于关注物体本身的细节特征,这导致MS-Diffusion在粗粒度图像保真度CLIP-I上未占据绝对的优势。当然,这也和现有个性化方法容易过拟合到参考图背景上的问题有关。
同时,MS-Diffusion在论文中还提供了大量的定性结果,感兴趣请查看具体论文。在显著提升个性化性能的同时,MS-Diffusion引入的位置信息不仅解决了多主题个性化时可能遇到的问题,还让模型个性化过程的控制能力显著增强。在当今用户普遍选择低自由度Inpainting模型时,MS-Diffusion为高自由度的个性化创作带来新的可能性。目前模型已开源,大家可以前往尝试。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货