【盲图像超分】IKC解析与深度思考
极市导读
由于实际应用场景中的退化模糊核往往是复杂且未知的,易导致已有方案在实际应用中严重性能退化。本文提出了一种迭代核估计方法,所提方法在盲超分领域取得了SOTA性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
【AI侃侃】知道IKC 一文有一年多,但一直没有深入看过论文,code也未曾仔细看过,潜意识中认为IKC太复杂了,所以一直拖、一直拖,直到看了DAN的两个版本,看到了DAN中附带了IKC的code,才觉得IKC可能是与DAN相类似的方法。趁着周末,花了近一天时间去看了IKC的原理以及code。
arXiv:https://arxiv.org/abs/1904.03377
code:https://github.com/yuanjunchai/IKC
Abstract
因其优异的有效性与高效率,深度学习已成为图像超分领域主流方案。现有图像超分方案往往假设下采样过程中的模糊核是固定/已知(比如bicubic)。然而,实际应用场景中的退化模糊核往往是复杂且未知的 ,进而导致已有方案在实际应用中的严重性能退化。
本文提出一种迭代核估计方法用于盲超分中的模糊核估计。 本文思想源自:核不匹配会导致有规律的伪影(过度退化或者过度模糊),而这种规律可以用于对不精确的模糊核进行校正 。因此,我们提出一种迭代校正机制IKC,它可以取得比直接核估计更好的结果。与此同时,我们还提出一种基于SFT(Spatial Feature Transformer)的超分网络SFTMD用于处理多模糊核。
合成数据与真实场景上的实验表明:所提SFTMD+IKC可以生成视觉友好效果,同时在盲超分领域取得了SOTA性能。
本文主要贡献包含以下几点:
提出一种直观且有效的深度学习框架用于模糊核估计; 提出一种基于SFT的非盲超分模型用于多模糊核图像超分; 所提SFTMD+IKC在盲超分领域取得了SOTA性能。
Method
Problem Formulation
盲图像超分问题可以描述如下:
已有研究往往采用各项同性高斯模糊核,此外,各项异性模糊核(可视作运动模糊+各项同性模糊核的组合)也开始得到关注。为简单起见,本文主要聚焦于各项同性模糊核 。延续SRMD,我们采用了高斯模糊+bicubic下采样 退化方式。在真实场景中,LR图像往往还存在加性噪声退化。噪声假设同样延续了SRMD中的高斯分布。
Motivation
接下来,我们将思考正确模糊核在超分过程中的重要性 。假设 为带核信息输入的预训练超分模 型,当输入正确模糊核,生成的超分图像不会存在伪影。盲超分问题就等价于寻找合适的模糊核以使得超 分模型生成视觉友好的结果 。一种直接的方案是采用预测器(Predictor) 直接从LR估计模糊 核 , 该预测器可通过最小化 损失得到:
然而,对模糊核进行精确估计不太可能。此外,超分模型对于估计误差非常敏感,不精确的模糊核会导致生成的结果包含伪影。
上图给出了超分模型关于核不匹配的敏感性可视化图,从中可以看到:
当超分模型中的核比真实核锐利时,即 , 超分结果会过于模糊; 当超分模型中的核比真实核模糊时,即 , 超分结果会过度锐化; 当超分模型中的核与真实核相当时,即 , 超分结果更为自然。
为解决核不匹配问题,我们提出了迭代校正模糊核以得到无伪影超分结果。为校正估计模糊核 , 我们构建 了一个Corrector度量估计核与真实核之间的差异。核心思想在于:利用中间超分结果进行模糊核校正 。Corrector可以通过最小估计核与真实核之间的 损失优化:
Corrector基于超分结果的特征对模糊核进行调整,调整后的模糊核又将优化超分模型以得到具有更少伪影的结果。
上图给出了迭代次数与性能的对比,可以看到:
仅仅一次校正的结果并不是非常好; 多次迭代可以有效提升PSNR/SSIM指标,直到达到饱和。
Proposed Method
Overall Framework 所提IKC方案包含超分模型 、预测器 以及校正器 。下图给出了IKC的实现伪代码。
Network Architecture of SR Model 作为最成功的处理多模糊核退化的超分方案,SRMD将输入图像与退化信息拼接到一起作为模型输入,然后通过级联卷积与PixelShuffle进行图像超分。然而,SRMD中的拼接方式并非仅有的、也并非最优选择,原因有二:
核map并不包含图像信息,直接采用聚氨基对其处理可能会引入与图像无关的干扰; 核信息的影响仅在第一层得到了体验,深层特征难以收到该核信息的影响。
为解决上述问题,我们提出了一种基于SFT的超分模型SFTMD,SFT通过对特征执行仿射变换提升模糊核的影响,该仿射变化并不是直接包含在图像处理图像中,因而可以提供更好的性能。
上图给出了所提SFTMD架构示意图, 它通过引入SFT对SRResNet进行扩展。SFT则基于模糊核特征H对于特 征F进行仿射变换:
注:仿射变换系数 通过另一个轻量CNN计算得到。
Network Architecture of Predictor and Corrector 预测器与校正器的网络架构见下图。预测器由 4个卷积层(后接Leaky ReLU)+GAP组成;校正器则同时将超分图像与已有估计 作为输入。
Experiments
我们按照前述退化模型合成训练数据集, 各项同性高斯模块的核宽分别为 以对 应x2、x3以及 , 核尺寸固定为 ; 当应用于真实图像时,我们添加了 的加性高斯噪声 。训练 数据为DIV2K+Flickr2K。
为定量评估所提方案,我们还提供了一个测试集Gaussian8:它包含8个各项同性模糊核,核宽范围分别为
SFTMD与IKC均在合成训练数据集上进行训练。首先,采用MSE训练SFTMD;然后,固定SFTMD参数,交替训练预测器与校正。
Experiments of SFTMD
上表对比了所提SFTMD与其他盲超分方案的性能,从中可以看到:
相比SRCNN-CAB与SRMD,所提SFTMD在所有配置与数据集上均取得了显著性能提升; 相比两个基于SRResNet的基线模型,所提SFTMD同样取得了最佳结果。
Experiments on Synthetic Test Images
上表给出了Gaussian8数据集上不同方案的性能对比,从中可以看到:
当退化核非bicubic时,在bicubic下采样退化下表现好的模型出现了严重的性能下降; 尽管无核校正的的方案已经取得了与现有方案相当的结果,但是,提升迭代次数仍可极大提升模型性能。
上图对比了模糊核迭代校正过程中的超分结果,可以看到:
直接采用预测器估计的模糊核生成的结果并不好,或者过于模糊或者存在振铃伪影; 随着迭代次数提升,PSNR指标逐渐提升,同时视觉效果也逐渐变好。
上表对所提方案的泛化性能进行了验证,从中可以看到:
所提IKC仍可保持其性能 ,说明IKC具有良好的泛化性; 移除PCA会造成性能下降,说明PCA有助于提升IKC的泛化性。
Experiments on Real Image Set
上图对比了不同方案在真实图像上的超分效果,可以看到:尽管退化模糊核未知,IKC仍可生成无伪影、边缘锐利的超分结果 。
上图提供了通过网格搜索优化模糊核+SRMD与IKC在Chip图像上的超分结果对比,从中可以看到:
尽管SRMD具有更锐利边缘、高对比度,但存在轻度伪影; IKC可以自动生成视觉友好的超分结果,尽管对比度稍低,但仍具有锐利而自然的边缘。
个人思考
因为最近一年确实看过不少盲超分的paper,所以第一遍看完IKC后只感觉不过如此。在做笔记时,思考了IKC这一类方案的时间线时才真的意识到IKC的巧妙之处。
上图简单梳理了自SRMD以来用于多模糊核退化的图像超分方案,SRMD、DPSR、USRNet、DPIR以及MANet是Kai Zhang及其团队成员的工作,IKC则是Jinjin Gu、Chao Dong团队的成果,DANv1&DANv2是中科院Tieniu Tan团队的成果。
SRMD首次成功的将核先验、噪声先验信息嵌入到超分模型中 ;而后续的工作则针对模糊核的迭代估计进行探索,后续的工作延续了两条不同的路线:
路线一:基于MAP思想进行迭代估计,像DPSR、USRNet以及DPIR采用了类似的思路,将传统方法MAP逐渐嵌入到迭代优化中; 路线二:基于CNN进行迭代估计,像IKC、DANv1以及DANv2均采用了深度学习的思想进行模糊核的迭代优化。
作为路线二的探索者,IKC以核不匹配造成的伪影 作为切入点,深入分析了估计核与真实核之间过渡时的现象,提出了模糊核迭代优化机制IKC。针对SRMD中核先验与LR图像的拼接处理方式可能存在弊端(核信息只影响一次、对深层难产生影响),引入SFT以加深核先验的影响。
当然,作为“吃螃蟹”的工作,它肯定会留下一些“坑”留给后来者去填。这些坑是啥呢?感兴趣的可以先去看一下DANv2,或者等待笔者的解读亦可。
本文亮点总结
如果觉得有用,就请分享到朋友圈吧!
公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载~
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~