CVPR | 让合成图像更真实，上交大提出基于域验证的图像和谐化-轻识

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

近日，计算机视觉顶会 CVPR 2020 接收论文结果公布，从 6656 篇有效投稿中录取了 1470 篇论文，录取率约为 22%。本文介绍了上海交通大学被此顶会接收的一篇论文《Deep Image Harmonization via Domain Verification》。

图像合成 (image composition) 是图像处理的常用操作，把前景从一张图上剪贴下来粘贴到另一张图上，获得一张合成图。合成图可以用来获取感兴趣的目标图像，也可以用于数据增广，有着广泛的应用的前景。但通过这种方式得到的合成图存在诸多问题，比如前景的大小或位置不合理、前景和背景看起来不和谐等等。我们的工作侧重于解决合成图中前景和背景不和谐的问题。具体来说，在合成图中，前景和背景是在不同的拍摄条件 (比如时刻、季节、光照、天气) 下拍摄的，所以在亮度色泽等方面存在明显的不匹配问题。图像和谐化 (image harmonization) 旨在调整合成图中的前景，使其与背景和谐。

传统的图像和谐化方法一般是从背景或者其他图片转移颜色信息到前景上，但这样无法保证调整之后的前景看起来真实并且与背景和谐。近年来，已经有少量的工作尝试用深度学习做图像和谐化，但成对的合成图和真实图极难获得。如果没有成对的合成图和真实图，深度学习的训练过程缺乏足够强的监督信息，合成图和谐化之后的结果也没有 ground-truth 用于评测。截至目前还没有公开的大规模图像和谐化数据库，我们构建并公布了由四个子数据库组成的图像和谐化数据库。并且，我们提出了域验证 (domain verification) 的概念，尝试了基于域验证的图像和谐化算法。

数据库和代码已公布：
https://github.com/bcmi/Image_Harmonization_Datasets
论文地址： https://arxiv.org/abs/1911.13239

我们构建数据库的方法仿照 [1] 中的策略，具体来说，给定一张真实图，选择一个前景进行调整使其和背景不和谐，得到一张人造的合成图。这种构建数据库的方式可以产生大规模成对的训练数据用以训练深度学习模型。但是 [1] 没有公布其构建的数据库，并且 [1] 建库的方式在合成图的合理性和多样性上存在明显不足。对前景进行调整使其和背景不和谐并不困难，简单的改变前景亮度即可快速生成大量的合成图。然而，如果要保证合成图的合理性和多样性并且接近实际的应用场景，则非常困难。因此，我们构建了一个 [1] 中数据库的增广增强版本，共包含 73,146 对合成图和真实图的数据库。我们的数据库包含四个子数据库：HCOCO, HAdobe5k, HFlickr, Hday2night，其中 Hday2night 是 [1] 中没有的子数据库。Hday2night 的合成图更接近真实的合成图，因此相比较其他三个子数据库有特殊的参考价值。我们针对产生合成图的种种问题，用两轮自动筛选和逐张人工筛选保证最终保留图片的质量。我们对最终的数据库做了全面细致的分析，包括不同的前景比例、不同的前景调整方法、不同的语义种类对图像和谐化数据库以及图像和谐化算法结果的影响，详见论文的补充材料。接下来，我们从每个子数据库选两个例子展示我们的数据库。如下图所示，我们对真实图片 (real image) 的前景 (mask 对应的区域) 进行调整，得到合成图 (synthesized composite)。可以看出在合成图中，前景虽然真实，但是和背景明显违和，整张图看起来不真实。图像和谐化的任务是调整合成图的前景，使其与背景和谐。

域 (domain) 是一个非常宽泛的概念，在不同的应用任务中被赋予了不同的含义。围绕域 (domain) 相关的应用也吸引了越来越多研究者的兴趣，比如域适应 (domain adaptation)、域泛化 (domain generalization)、域分类 (domain classification)、域翻译 (domain translation) 等等。最近很多流行的图像到图像翻译 (image-to-image translation) 的方法比如 pix2pix, cycleGAN, MUNIT, DRIT 等都属于域翻译的范畴。域翻译的一个经典应用是把白天的风景图转化成夜景图，其中白天 (daytime) 和夜晚 (night) 可以当作两个域 (domain)。类似的，我们把每一种拍摄条件（比如时刻、季节、光照、天气）当作一个域 (domain)，因此真实图片存在无穷多个可能的域。真实图的前景和背景是在相同的拍摄条件下拍摄的，因此属于相同的域。合成图的前景和背景可能是在不同的拍摄条件下拍摄的，因此属于不同的域。我们不知道合成图中前景和背景的域标签 (domain label), 只需要把前景迁移到和背景相同的域。因此图像和谐化 (image harmonization) 可以看成是特殊场景下的域翻译 (domain translation)。据此，我们提出了域验证 (domain verification) 的概念，即判断前景和背景是否属于同一个域，并设计了域验证鉴别器（domain verification discriminator），用于拉近和谐后的前景和背景的域。我们的整体网络结构如下图所示。

我们生成器的结构基于 UNet 实现，但是增加了类似于 [2] 中的注意力机制 (attention block)。另外，我们引入了两个鉴别器，第一个鉴别器是生成对抗网络（GAN）里面标准的鉴别器，作用于整张图片，使得生成图片的数据分布和真实图片的数据分布接近。第二个鉴别器就是我们提出的域验证鉴别器，使得生成图中前景和背景的域尽可能接近。具体来说，我们首先用部分卷积 (partial convolution) 分别提取前景和背景的域表征。部分卷积最早应用于图像填充 (image inpainting)，在这里用来提取形状不规则的前景和背景的域表征，可以避免其他区域的信息泄露和默认填充方法的干扰。基于前景和背景的域表征，我们提出了域验证损失 (domain verification loss)。我们的域验证损失虽然最终包装成了对抗损失 (adversarial loss) 的形式，但本质上是基于前景和背景域表征相似度的验证损失 (verification loss)。在我们构建的数据库上，我们比较了我们的方法、传统的图像和谐化方法和基于深度学习的图像和谐化方法。实验结果表明我们的方法优于现有的方法。可视化结果的比较见下图，我们比较了之前的图像和谐化深度学习方法 DIH 和 S2AM，也比较了我们不用域验证鉴别器（domain verification discriminator）的方法。

并且，我们还在 [1] 提供的 99 张真实合成图上进行用户主观评测（user study）, 结果表明我们的方法优于现有的方法。关于量化指标，因为有 ground-truth 的真实图，我们可以定量评测生成图的效果。我们沿用 [1] 的 MSE 和 PSNR, 同时也提出了只考虑前景的 fMSE，因为对于前景比例较小的合成图，转换之后的前景误差可能会被背景的重构误差淹没。我们也尝试了其他的量化指标比如 SSIM、LPIPS 等等，但是由于合成图和真实图在结构和语义层面非常接近，我们观察发现这些量化指标并不十分可靠。所以，我们最终只用了定量指标 MSE/fMSE、PSNR 和用户主观评测的指标 B-T score。关于我们方法的技术细节和全部的实验结果，请参见论文正文和补充材料。欢迎大家关注我们的数据库和方法，关注图像和谐化领域。

参考文献：

[1] Tsai, Yi-Hsuan, et al.「Deep image harmonization.」In CVPR, 2017.

[2] Cun, Xiaodong and Pun, Chi-Man.「Improving the harmony of the composite image by spatial-separated attention module.」, TIP, 2019.

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~