这张图的制作技术原理,最简单无公式的扩散模型原理
下图可以私信获取制作参数
前向扩散:原图被一次次从正态分布中抽样生成的噪声给淹没。宛如一点墨水扩散在大海里;
反向扩散:随机生成初始化符合正态分布的图像作为噪声分布预测模型的第一次输入。模型一次次的根据当次图像预测噪声分布,生成相同分布的噪声,并让当前图像减去这个噪声,一开始可以设置较大的剔除比例来大幅减去噪声,为了收敛,越到后期被减的噪音比例越低。宛如一次次的预测并剔除各种海水中的分子,获得那滴墨水。
潜空间:如果直接操作原图,那么计算量太大。上述的原图可以用(自编码器)模型来压缩编码到一个很小的尺寸即为图像的潜空间,然后扩散操作相同,在最后需要将潜空间中的图像信息使用(自编码器)模型解码成正常图片。由于初始化的输入需要符合正态分布,所以,编码器的输出也要向正态分布空间拟合。
正态分布的好处:
采样需要:必须要确定分布,方便随机初始化初始输入,且标准正态分布的采样方式相对简单且易于计算;
插值和平滑过渡:标准正态分布具有连续性和光滑性的特点,这对于在潜在空间中进行插值和遍历非常有用。通过在标准正态分布中插值两个随机采样的编码向量,可以获得介于它们之间的一系列编码值,从而在生成图像时呈现出平滑且连续的过渡。
过拟合和泛化:通过将潜在编码向量约束为标准正态分布,可以限制模型的容量,并避免过拟合。标准正态分布是一种常见的先验假设,即认为大部分数据应当位于潜在空间的中心附近。这种先验假设有助于模型更好地泛化到未见过的数据。
潜在空间的连续表示:通过将潜在编码向量约束为标准正态分布,可以使潜在空间呈现出更加连续和光滑的特性。这有助于模型在生成图像时产生更平滑和自然的变化,同时也提供了更丰富的探索空间。
文字引导:(CFG数值控制强度)。前面的技术没有文字提示的话,产生的结果不会具有偏向性。通过(CLIP)模型可以将文字信息编码到低维空间,并与图像的潜空间进行交互(CrossAttention)。关于交互的内容可以有很多种,比如图像的深度信息与潜空间进行交互。
噪声控制:图生图中,需要向潜空间中添加随机噪声的目的是改变潜空间的特征信息,如果不加的话,优秀的解码器模型就会根据输入图像的潜空间特征信息,得到与输入图像高度一致的输出图像,毕竟这是解码器的优化目标。
变分自编码器(VAE)中解码器的损失函数包括两个部分:重构损失和正则化项。
重构损失(Reconstruction Loss):重构损失用于度量解码器的重构能力,即解码器生成图像与原始输入图像之间的差异。一般使用均方误差(Mean Square Error,MSE)或交叉熵(Cross Entropy)作为重构损失。其目标是最小化生成图像与原始图像之间的差异,以使解码器能够还原原始数据。
正则化项(Regularization Term):为了确保潜在空间的连续性和光滑性,通常会引入一个正则化项。常见的正则化项是KL散度(Kullback-Leibler Divergence),用于度量潜在编码向量与先验分布(一般是高斯分布或均匀分布)之间的差异。KL散度有助于约束潜在空间的分布,使其更接近预设的标准正态分布