阿里开源新型图像个性化框架MS-Diffusion,无需微调一键参考多个主题

共 2841字,需浏览 6分钟

 ·

2024-06-24 22:00

↑ 点击蓝字 关注极市平台
作者丨王谢睿、付思铭 、黄启涵、 何旺贵、姜浩
编辑丨极市平台

极市导读

 

用户通过少量主题参考图,无需微调即可一键生成与多种文本概念结合的新图片。该项目已开源。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

图像个性化是当今的热门研究主题之一,支持用户提供少量主题参考图,让模型学习到给定主题的概念,并和各种文本概念结合,自由创作出各种各样的新图片。然而现有图像个性化方法大都基于DreamBooth框架,需要对每个特定的主题进行微调,带来了不小的训练开销;Zero-shot的个性化框架如IP-Adapter,尽管支持无微调的个性化,其图像和文本的保真度较低,且不支持多个给定主题的组合。那么个性化方法能不能在高保度的前提下,能够无需微调地参考单个或多个给定主题呢?

项目主页:https://ms-diffusion.github.io/

GitHub地址:https://github.com/MS-Diffusion/MS-Diffusion

HuggingFace地址:https://huggingface.co/doge1516/MS-Diffusion

论文地址:https://arxiv.org/abs/2406.07209

针对这些问题,阿里联合浙大提出了新型图像个性化框架MS-Diffusion,在满足了上面提到的功能之外,效果也是十分惊人:

不论是单个主题还是多个主题,MS-Diffusion都可以在满足图像和文本条件控制的情况下,生成高质量的结果。尤其在多物体生成中,MS-Diffusion支持动物、物体和穿着等多种类型的组合,且没有出现物体之间互相影响的情况。要知道这些生成都是不需要推理时微调的,也就意味着用户可以像使用Stable Diffusion一样方便地使用MS-Diffusion。

与此同时,MS-Diffusion还具有较高的功能性和可扩展性。它支持显示的layout控制,用户可以让不同的主题生成在指定的区域。它还支持和ControlNet结合,在完成个性化任务的同时引入深度图、边缘图、姿态等一系列条件的控制:

技术原理

MS-Diffusion的模型架构比较简洁,在原始Stable Diffusion的基础上,它为图像条件的注入设计了一条通路。图像经过预训练的Encoder后,通过Grounding Resampler映射到Stable Diffusion的跨注意力条件空间中,这个过程每张输入的参考图像彼此独立。接着类似于IP-Adapter,MS-Diffusion也为图像条件设计了独立于文本条件的跨注意力结构,从而有效地将其作用到扩散模型的生成过程。

MS-Diffusion的核心黑科技在于,它引入了layout也就是位置信息的辅助。负责映射图像embedding的Grounding Resampler是一个类似于Q-former的结构,MS-Diffusion用图像的描述短语和位置box来初始化原本随机的可学习query,相当于把额外的语义信息和位置信息与图像embedding做了一个整合,这对细节保真度的增强十分有意义。此外,MS-Diffusion利用multi-subject cross-attention将特定主题在跨注意力层的作用区域限定在了特定的区域,这对于多主题个性化生成十分关键,它不仅避免了不同主题之间的互相干扰,还把无关的区域(如背景)留给文本条件进行主导,这也是MS-Diffusion能在保证主题细节的同时拥有着显著高的文本保真度的主要原因。

作者还在论文提到,MS-Diffusion的效果一定程度上还来自于对大规模训练数据的精细化处理。为了获取多主题的训练数据,MS-Diffusion对单张图像的标题进行实体提取,再使用Grounding检测模型和SAM把多个主题从单张图像分离出来。另外,相较于IP-Adapter使用图文对作为训练数据,MS-Diffusion从视频里抽两帧,分别作为reference和ground truth,改善了“自己参考自己”所带来的“复制粘贴”问题。两帧中的多个物体还会经过一个额外的匹配过程,从而得到一个较精细的对应关系,并在训练时得到充分利用。

实验结果

MS-Diffusion在论文中与接近10种已开源的个性化方法做了定量比较。无论是图像保真度DINO,还是文本保真度CLIP-T,MS-Diffusion都取得了更优秀的性能。作者还在论文中特别指出,相较于其他方法,MS-Diffusion更倾向于关注物体本身的细节特征,这导致MS-Diffusion在粗粒度图像保真度CLIP-I上未占据绝对的优势。当然,这也和现有个性化方法容易过拟合到参考图背景上的问题有关。

同时,MS-Diffusion在论文中还提供了大量的定性结果,感兴趣请查看具体论文。在显著提升个性化性能的同时,MS-Diffusion引入的位置信息不仅解决了多主题个性化时可能遇到的问题,还让模型个性化过程的控制能力显著增强。在当今用户普遍选择低自由度Inpainting模型时,MS-Diffusion为高自由度的个性化创作带来新的可能性。目前模型已开源,大家可以前往尝试。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

浏览 53
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报