爆火!美图AI扩图和改图技术大揭秘
公众号CVer
共 5331字,需浏览 11分钟
·
2024-04-03 02:37
点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
最近,靠着出其不意的智能画面扩展效果,“AI扩图”功能凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180度的大反转也让网友们直呼离谱,话题热度高居不下。
-
训练集的prompt中,一般只描述了图像中有什么,而不会描述图像中没有什么,因此让训练后的模型根据提示生成某一目标很容易,但是不让它生成目标却很难。即便有Classifier-Free Guidance策略,可以通过把不想要的物体添加到负词中的方式来抑制该目标的生成,但始终无法将所有可能的目标全部写到负词中,因此模型还是会倾向于生成一些意想不到的目标; -
从训练数据的分布来看,由于大规模图像训练集中的绝大部分图像都是由前景和背景组合而成的,纯背景的图像占比较小,这意味着扩散模型在训练时就已经学习到了一种潜在的规律,即一幅图像中大概率存在着某一个目标前景(即使prompt中并没有提到它),这也导致模型在执行inpaint任务时更倾向于在mask区域中生成些什么,从而使输出图像更接近于训练时的分布; -
待填充的mask区域的形状有时也会包含一定的语义信息,比如在没有其他引导的情况下,模型会更倾向于在一个形状为猫的mask区域内填充一只新的猫,从而导致消除任务失败。
-
在训练阶段,当mask区域落在纹理较少的纯背景区域上时,增加一个特定的prompt关键词作为触发引导词,并在模型推理阶段,将这个关键词作为正向引导词加入到prompt embedding 中,促使模型更多地生成背景区域。 -
由于纯背景图像在整个训练集中占比较小,为了提高其对于训练的贡献程度,在每个训练batch中,手动采样一定比例的背景图像加入到训练,使背景图像在训练样本中的占比总体保持稳定。 -
为了降低模型对于mask形状的语义依赖,在训练阶段还会随机生成各种不同形态mask,增加mask形状的多样性。
评论