CVPR2024-扩散模型可解释性新探索，图像生成一致性创新高！AI视频生成新机遇？

1. 本文概要

在本研究中，作者指出了对图像生成扩散模型的可重复性或一致性进行定量评分的重要性。本文提出了一种基于成对平均CLIP（对比语言-图像预训练）分数的语义一致性评分方法。通过将此度量应用于比较两种领先的开源图像生成扩散模型——Stable Diffusion XL（SDXL）和PixArt-α，作者发现它们在语义一致性分数上存在显著的统计差异。所选模型的语义一致性分数与综合人工标注结果的一致性高达94%。此外，本文还研究了SDXL及其经过LoRA（低秩适应）微调的版本之间的一致性，结果显示微调后的模型在语义一致性上有显著提高。本文提出的语义一致性分数为图像生成的一致性提供了一个量化工具，这有助于评估特定任务的模型架构，并为选择合适的模型提供了参考依据。

论文标题：Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation 论文链接：https://arxiv.org/abs/2404.08799 开源链接：https://github.com/brinnaebent/semantic-consistency-score

图1：将单个提示通过设置好的随机种子重复n次传递到扩散模型中。生成的图像通过CLIP图像编码器传递，计算所有来自单个提示生成的图像的成对余弦相似度。

2. 方法引出

随着图像生成扩散模型的研究和应用不断增长，对这些模型输出的可解释性进行更深入的研究变得尤为重要。在使用扩散模型进行图像生成时，输出结果会显示出一定的变异性。这种变异性是由扩散过程中的随机因素造成的，包括随机初始化、概率分布采样以及非线性激活函数等。尽管变异性是扩散模型的一个内在特点，但由于模型架构、训练过程（包括近似方法）以及用于指导生成过程的技术的不同，不同模型之间的变异性水平也会有所不同。在将这些模型应用于实际问题时，需要在输出的多样性和创造性与输入提示的一致性和连贯性之间找到一个平衡点。对输出的一致性或可重复性进行量化，可以使对这种变异性进行量化分析，并在决定使用哪种扩散模型来完成特定任务时，提供创造性与一致性之间的平衡参考。这种量化方法能够评估模型的稳定性和一致性，检测意外的偏差，验证模型输出的解释，并提高人类对模型的理解。

3. 方法详析

3.1. 语义一致性分数

作者认识到，为了量化扩散模型在图像生成中的可重复性或一致性，一个量化分数是必需的。在本研究中，本文介绍了一种基于语义的方法来计算这一分数，即通过使用成对平均CLIP分数（公式1）来实现。

公式1给出了语义一致性分数，它是一个成对平均CLIP分数，其中N是图像的数量，和分别是图像和的CLIP视觉嵌入。为了更好的可解释性和理解，该分数被限制在0到100之间，得分越接近100表示生成的图像语义越一致。所有成对余弦相似度之和除以唯一图像对的总数。使用均值是为了确保该指标对异常值敏感。

CLIP是一种跨模态检索模型，它在包含400M个（图像，标题）对的大规模数据集上接受训练，这些数据来自于50万个网络搜索查询。用于计算语义一致性分数的CLIP模型采用的是ViT-B/32版本，该版本采用视觉变换器架构。网络输出一个512维向量，用以表征图像内容。模型权重的训练目标是最大化匹配的图像/标题对的标度余弦相似度，同时最小化不匹配对的相似度，从而创建一个嵌入空间，该空间适用于从图像字幕生成到图像检索和搜索等多种应用场景。

3.2. 图像生成模型评估

为了评估先进图像生成模型的一致性，本文选择了SDXL和PixArt- 进行比较，因为它们的权重和架构是开源的。相比之下，DALL-E 3、Imagen 2和Midjourney等封闭式图像生成模型由于缺乏图像生成过程的透明度，难以用于一致性研究。特别是，无法设置随机种子，这对于研究模型的重复性至关重要。此外，DALL-E 3的API会重写输入的提示，这在实验中导致无法固定提示和随机种子，从而无法消除混杂变量。

图1详细说明了本文评估大型图像生成模型的方法。首先，作者将一个提示传递给图像生成扩散模型（SDXL或PixArt- ）。然后重复这一过程n次，以确保结果的可靠性。接下来，使用CLIP图像编码器为每个生成的图像创建嵌入。最后，通过计算成对的余弦相似度并取平均值，以此得出针对特定提示和模型的最终一致性得分。

3.2.1 数据集构建：SDXL和PixArt-

为了评估SDXL和PixArt- ，首先使用一个大型语言模型（Anthropic， claude-3-opus-20240229）编写了100个独特的提示，并将这些提示标准化应用于两个模型。此外，使用预定义的随机种子来确保研究的可重复性，其中一个随机种子对应于一次重复。所有其他参数在两个模型间保持一致：宽度和高度设置为768像素，这是可用最大分辨率的一半。使用的调度器是K-Euler，引导比例设为7.5，推理步骤数设为20。

3.2.2 数据集构建：SDXL和LoRA

为了研究低秩适应（LoRA）微调对SDXL的影响，使用低秩适应在9幅公有领域的莫奈画作上微调了SDXL的权重。输入图像经过SwinIR（放大）、BLIP（字幕）和CLIPSeg（去除不利于训练的图像区域，温度1.0）处理。批量大小为4，epochs为1000，U-Net的学习率为1e-6，文本嵌入学习率缩放为3e-4，LoRA嵌入的学习率缩放为1e-4。LoRA微调在Nvidia A40上Replicate上运行。

使用了50个之前用于SDXL和PixArt- 模型比较的提示子集，并在模型间使用相同的随机种子。为输入SDXL，在提示末尾添加"莫奈风格"。同样，为LoRA模型修改提示，附加"风格TOK"，其中"TOK"是训练时用来表示输入图像中概念的唯一标记字符串，即莫奈画风。

3.2.3 人工标注

标注由13名人类标注者完成。本文构建了一个标注界面，并排显示SDXL和PixArt- 生成的图像库，标注者选择他们认为最一致的库，并浏览每个提示。通过比较语义一致性得分最高的模型与每个标注者的选择以及所有标注者的整体响应（按频率聚合）来衡量一致性。

3.2.4 敏感性分析

本文进行了敏感性分析，以确定分析的最佳提示重复次数，以平衡准确性和计算效率。本文计算了SDXL和PixArt- 的10个不同提示的成对平均CLIP分数，重复次数从10到100不等。

根据敏感性分析的结果，本文对每个模型的每个提示进行了20次重复（随机种子），得到了4k张图像进行分析。

3.2.5 统计分析

对于每个提示和每个模型，计算成对平均CLIP分数。使用Kolmogorov-Smirnov正态性检验发现，每个模型的分数分布都不服从正态分布（p<0.05）。因此，作者使用Wilcoxon符号秩检验（非参数配对样本显著性检验）和两样本Kolmogorov-Smirnov检验（非参数检验，用于确定两个样本是否来自同一连续分布）来检查统计显著性。

图2：（上行）SDXL和PixArt-α在成对得分和分布上显示出显著差异，使用箱线图和核密度估计图可视化。（下行）SDXL（基础）和SDXL（基于Monet的LoRA微调）在成对得分和分布上显示出显著差异，使用箱线图和核密度估计图可视化。

4. 实验

4.1. 敏感性分析

作者进行了敏感性分析，以确定分析的最佳提示重复次数，平衡准确性和计算效率。作者发现，至少需要20次重复，才能确保得分在所有重复的平均得分和100次重复得分的1%范围内。在95%的迭代中，使用20次重复可将得分保持在平均得分和100次重复得分的0.5%范围内。

4.2. 模型比较：SDXL和PixArt-

作者探讨了SDXL和PixArt- 两种最先进的开源模型在图像生成一致性方面的差异（图2）。在100个提示和每个模型2k张图像中，SDXL的平均一致性得分为88.9±7.1（中位数91.3），PixArt- 为93.4±4.9（中位数95.1）。两样本Kolmogorov-Smirnov检验显示，两个模型的得分分布存在显著差异（KS统计量=0.48；p值=8.44e-11）。Wilcoxon符号秩检验也显示配对得分存在显著差异（Wilcoxon统计量=110.0；p值=1.01e-16）。

人工标注与最高语义一致性得分之间的比较显示了很高的一致性。获得最高语义一致性得分的模型与人类标注者最常选择的模型匹配的比例为94%。在所有标注者中，平均一致性为90.9%[范围86%-94%]。

4.3. 模型比较：SDXL和基于LoRA的SDXL微调版本

本文探讨了基础SDXL和基于LoRA微调的SDXL版本在图像生成一致性方面的差异。在50个提示和每个模型1k张图像中，SDXL的平均一致性得分为90.1±5.4（中位数91.7），LoRA微调SDXL模型的平均一致性得分为92.9±5.0（中位数94.2）。两样本Kolmogorov-Smirnov检验显示，两个模型的得分分布存在显著差异（KS统计量=0.38；p值=0.001）。Wilcoxon符号秩检验也显示配对得分存在显著差异（Wilcoxon统计量=95.0；p值=5.80e-09）。

4.4. 局限性

这项研究将大大受益于进一步与人类判断图像生成一致性的比较。此外，作者使用CLIP嵌入模型，因为它在其他用例中已被证明是稳健的，但应该探索其他多模态嵌入模型，如BLIP2，特别是因为CLIP模型已被证明会从输入提示中吸收偏差。

5. 结论

在本文中，作者提出了一种基于成对平均CLIP分数的语义一致性分数。作者使用这个度量比较了两种最先进的开源模型SDXL和PixArt- ，以及SDXL及其基于LoRA的微调版本。

这一评估突出了PixArt- 在跨提示的一致性和较低可变性方面的优势，相比之下SDXL存在不足。这一发现对于选择合适的模型有重要影响：对于要求高一致性的应用，选择更一致的PixArt- 模型会更有优势；相反，当需要多样性输出时，SDXL会更合适。通过精确量化这种一致性，作者可以更好地区分不同模型，并就针对不同用例选择模型架构做出明智决策。

对扩散模型权重进行LoRA微调是一种常见的做法，旨在生成更符合预期的输出。通过采用语义一致性分数进行评估，作者发现与原始SDXL相比，经LoRA微调的SDXL版本在语义一致性上表现更佳。本研究提出的语义一致性分数为图像生成的一致性提供了一个量化指标，有助于评估特定任务下LoRA模型的性能。此外，作者还考虑了对提示的评估，这在尝试量化和编纂各种用例（包括连贯故事和电影生成）所使用的提示工程时可能非常有用。

作者提出的量化生成模型输出一致性的概念，不仅适用于图像生成，也可以扩展到其他领域，如生成文本、音频或者视频输出的一致性评估，这将为生成模型的发展带来新的机遇。