TPAMI 2024 | 学习双边代价体以实现滚动快门时间超分辨率

小白学视觉

共 94075字,需浏览 189分钟

 ·

2024-06-26 10:05

点击上方小白学视觉”,选择加"星标"或“置顶

      
重磅干货,第一时间送达

题目:Learning Bilateral Cost Volume for Rolling Shutter Temporal Super-Resolution

学习双边代价体以实现滚动快门时间超分辨率

作者:Bin Fan; Yuchao Dai; Hongdong Li

源码链接:https://github.com/GitCVfb/LBCNet


摘要

滚动快门时间超分辨率(RSSR),旨在合成两个连续滚动快门(RS)帧之间的中间全局快门(GS)视频帧,随着深度卷积神经网络的发展,在过去几年中取得了显著进展。现有方法通过串联多个独立的网络来顺序估计中间运动场并合成目标GS帧。然而,它们通常结构复杂,不利于互补的运动和外观信息的交互,并且存在像素混叠或解释性差等问题。在本文中,我们推导出用于RS感知的反向变形的统一双边运动场,通过时间偏移嵌入注入时空一致性信息,赋予我们的网络更明确的几何意义。更重要的是,我们开发了一个统一的、单阶段的RSSR流程,以粗到细的方式恢复潜在的GS视频。它首先从给定输入中提取金字塔特征,然后细化双边运动场和锚帧,直到生成所需的输出。借助我们提出的双边代价体,使用锚帧作为共同参考来模拟与两个RS帧的相关性,逐渐细化的锚帧不仅有助于中间运动估计,还补偿了上下文细节,使得额外的帧合成或细化网络变得不必要。同时,在对称双边运动模型的基础上构建的非对称双边运动模型进一步提高了通用性和适应性,从而实现了更好的GS视频重建性能。在合成数据和真实数据上的大量定量和定性实验表明,我们的方法达到了新的最佳结果。

关键词

  • 双边代价体

  • 深度学习

  • 几何视觉

  • 滚动快门校正

  • 时间超分辨率

I. 引言

滚动快门(RS)摄像机因其低成本和简单的制造工艺而变得无处不在。然而,其逐行曝光机制在相机或目标移动时会造成一些意料之外的几何畸变,如倾斜、摆动或涂抹,称为RS效应(又称果冻效应),这可能会改变人们对场景的视角,成为摄影中的一个麻烦[1], [2]。

幸运的是,RS图像以2D测量的形式编码了丰富的时间动态信息[3],这使得逆转其固有的顺序成像机制成为可能。滚动快门时间超分辨率(RSSR)就是这样一个普遍而重要的任务,它在两个连续RS帧的成像间隔内,以虚拟全局快门(GS)摄像机观察到的所有潜在视图的复活和重现,如图1所示。这个众所周知的任务有许多潜在的应用,如计算摄影和新视图合成。

与RS校正(RSC)任务[4], [5], [6], [7]不同,后者只恢复对应于特定曝光时间的一个GS图像,并且视频帧插值(VFI)任务[8], [9]不需要额外处理RS效应,RSSR任务特别具有挑战性,因为所需的中间GS帧必须在时间和空间上都保持连贯性。换句话说,需要同时处理RSC和VFI任务,即插值平滑且值得信赖的无畸变GS视频序列。

最近,基于光流的RSSR方法[10], [11], [12], [13]提供了一个可行的框架并取得了令人印象深刻的结果。这些方法的共同过程通常包括两个关键元素:RS感知运动估计和GS帧合成。值得注意的是,RS感知运动可以分为前向变形和后向变形。

特别是,现有方法要么通过缩放常规双向光流场[10], [11], [12]来估计基于前向变形的中间运动场(即,RS失真光流场 ),如图2(a)所示,要么通过可学习的网络预测基于后向变形的中间运动场(即,双边运动场 )如图2(b)所示。随后,它们的共同步骤是进一步使用帧合成网络对目标GS帧进行上下文线索对齐以进行细化。

尽管上述首先估计中间运动然后合成目标GS帧的流程已成为流行的RSSR范例,如表I所示,但它们存在以下一个或多个缺点:

在基于前向变形的方法[10], [11], [12]中,双向RS失真光流场 相互独立,并且严重依赖于预训练的光流场。此外,前向变形在多个像素映射到同一目标位置时固有存在冲突和模糊性,这很容易导致黑洞和混叠伪影。
在基于后向变形的方法[13]中,双边运动场 之间的内在几何属性没有被利用,因此只能根据专用网络隐式建模,这使得生成的流程不太可解释。
由于GS图像事先不可用,因此在中间运动和目标帧之间存在"鸡和蛋"问题,这为网络构建带来了额外的困难。因此,如图2(a)和(b)所示的先前RSSR框架通过串联多个独立的编解码器进行顺序生成。然而,这种设计理念忽略了上述两个关键元素之间的相互促进,并且还增加了模型大小。
为了克服这些缺点,而不是使用错误倾向和相互独立的前向变形,我们首先在第IV节中推导出RS感知后向变形的统一双边运动场,其中明确构建了它们之间的几何连接。注意,分别对对称和非对称双边运动场进行了建模,大大提高了生成的运动估计模块的可解释性。然后,在这些几何模型的基础上,我们在第V节中将上述分离的运动估计和帧合成网络合并到单个编解码器中,如图2(c)所示,这可以以整体高效的方式充分利用互补的运动和外观信息。
具体来说,这种统一的单阶段RSSR架构首先通过紧凑的编码器从给定输入中提取金字塔特征,然后通过粗到细的解码器联合细化双边运动场和中间GS帧。值得注意的是,我们提出了学习双边代价体,即LBCNet,以探索潜在的时空相关性。此外,我们提出了一种多尺度一致性损失,以专注于逐层细化中的运动理解和遮挡推断。通过我们的端到端网络中的时间嵌入,可以生成对应于任何时间戳的高保真GS图像。因此,我们的方法促进了上下文聚合、遮挡推理、运动补偿和时间抽象的优势。实验结果表明,我们的流程在RS效应去除、模型大小和推理效率方面一致地超越了现有的最先进方法。
我们的主要贡献可以概括为三个方面:
  1. 我们为RS感知的帧变形开发了一种统一的双边运动模型,这对于探索RSSR任务的内在几何属性至关重要。
  2. 我们提出了一个单阶段流程,用于联合执行双边运动估计和中间帧细化,以高效地提取GS视频。
  3. 实验表明,我们的方法在保持紧凑、高效且有前景的网络设计的同时,取得了非常优秀的结果。

III. 预备知识

在本节中,我们简要介绍必要的理论基础和基于前向变形的RSSR模型,这反过来又突出了我们在第IV节中统一双边运动建模的必要性。

A. 基于全局快门的几何建模

在这一节中,我们简要介绍对于后续章节中提出的统一双边运动模型至关重要的理论基础和基于前向变形的滚动快门时间超分辨率模型。
假设全局快门摄像机在两个连续帧之间经历恒定的线性速度    和恒定的角速度   。一个具有深度    的3D点    将被摄像机观察到,其3D速度为   。将这个3D速度投影到2D图像平面上,可以得到2D运动场,这通常在亮度恒定假设下由光流向量    来近似,对于像素    处的光流向量    表示为:
其中    和    分别定义为:
这里,  表示归一化后的图像坐标,  是摄像机焦距,  表示起始帧中与像素    相关联的3D点的深度值。为了简便,接下来我们使用    和    分别表示    的第一和第二项。

B. RSSR的公式化

所有滚动快门(RS)摄像机的扫描线都以不同的时间戳顺序曝光,导致每个扫描线具有不同的局部帧。假设同一扫描线上的所有像素在同一时间瞬间曝光。因此,RS图像可以被视为在成像持续时间内,连续的行逐行组合的虚拟GS图像序列的结果。通过利用固有的时间动态信息,RSSR任务的目标是逆转上述RS成像机制,以便恢复一个平滑且连贯的GS视频。
根据 [11] 中的定义,RSSR 的目标是合成一个中间GS帧   ,输入为两个连续的RS帧    和   。特别是,如图 4 所示,  和    的中心扫描线分别对应于时间实例 0 和 1。通过这种方式,我们可以对输入的RS视频执行时间上可行的联合RS校正和帧插值。

C. RS感知帧变形用于RSSR

为了去除RS畸变,基于光流的方法已被广泛研究,包括基于前向变形的方法 [4], [5], [7], [10], [11], [12] 和基于后向变形的方法 [6], [13]。具体到RSSR任务,一个众所周知的基于RS感知的前向变形模型 [10], [11], [12] 通常采用级联架构,如图 2(a) 所示。具体来说,为了将每个在时间   (i ∈ {0, 1} 表示图像索引)曝光的RS像素 x 传递到对应于时间 t ∈ [0, 1] 的GS画布上,首先使用现成的光流网络,例如PWC-Net [23] 或 RAFT [24],来估计双向光流场    和   ,然后RS失真光流场    和    可以通过以下近似得到:
这里,RS感知校正映射    和    用于缩放常规光流向量,定义为:
其中 h 表示 RS 扫描线的数量,γ ∈ (0, 1] 表示读出时间比率,即总读出时间与总帧时间(包括帧间延迟时间)之间的比率。注意    和    封装了底层的 RS 几何形状,由于其复杂性,可以由编解码器网络隐式建模(见图 2(a) 中的灰色模块)。还要注意,(4) 中的    和    依赖于与像素 x 在    和    中相关联的3D点的深度。
随后,为了减少变形模型的复杂性,Fan [11] 提出了 (4) 的近似版本,忽略了视差效应,即:
这些与图像内容无关,也不依赖于特定的神经网络,即,可以丢弃图 2(a) 中的灰色模块(见虚线轮廓)。
基于上述    和   ,可以通过前向变形算子    将RS图像变形到虚拟GS图像的目的地:
其中    表示前向变形算子。相反,如图 2(b) 所示,Zhong [13] 提出直接通过自定义运动估计网络学习基于后向变形的双边运动场    和   ,这些场可以用来后向变形RS图像,如下所示:
其中    表示后向变形算子。本质上,运动估计网络被训练以最小化帧差异,目标函数为:
总结来说,到目前为止,基于前向变形的中间运动场 (6) 是基于显式的 RS 几何建模(更多细节见 [10], [11]),因此具有良好的可解释性。一个简单的示例在图 3(a) & (b) 中抽象出来,其中采用了简单的缩放操作。相比之下,基于后向变形的中间运动场 (7) 是通过专门的神经网络隐式建模得到的,结果设计的流程可解释性较弱。受到 [10] 的启发,接下来我们将明确推导出基于后向变形的运动场的数学统一模型,赋予其更明确和易于处理的几何意义,并在第V节中设计具有良好可解释性的RSSR网络架构。

IV. 统一双边运动建模

在本节中,我们提出了一种用于滚动快门感知的后向变形的统一双边运动模型,包括对称和非对称两种范式。

A. 滚动快门感知运动参数化

注意,给定两个连续的滚动快门帧    和   ,它们的中心扫描线对应于曝光时间 0 和 1,分别。假设    的扫描索引等同于其扫描线,如图 4 所示。此外,  的第一(即第 0 个)和最后一个(即第    个)扫描线分别在时间    和    曝光。从这些出发,存在曝光时间    与扫描索引    之间的一一对应关系,即
特别地,  和    的曝光时间间隔分别与    和    相一致。同样容易知道    的第一扫描线的扫描索引是   ,通过将    代入上述公式得到。
假设    表示对应于曝光时间    的潜在全局快门图像,其中    等同于满足上述公式的扫描索引   。然后,对于    中坐标为    的任何像素    ,我们定义从    到    的相应 2D 像素位移向量为    ,并且从    到    等于    。因此,  和    中与    匹配的像素将分别对应于扫描索引    和  
按照 [10], [11] 的进一步假设,存在两个连续滚动快门帧的第一两行之间恒定的帧间相机速度    (也可以选择其他参考扫描线而不损失普遍性)。因此,使用 [40] 中提出的连续滚动快门运动建模,像素    在    和    之间以及    和    之间的相对运动将满足
其中
表示滚动快门感知的双边插值因子。因此,上述公式(10)表示基于    和    以及    和    之间的像素    的帧内相机运动速度,基于此我们可以扩展公式(1)用于滚动快门感知的几何建模。

B. 滚动快门感知双边变形几何

不失一般性,我们推导出    和    之间的几何约束作为示例。将公式(10)和(11)代入公式(1),我们可以将像素    从    到    图像平面的像素位移向量建模如下:
注意    和    在上述公式(12)中由帧间相机速度、相机参数和与    中像素    相关联的 3D 点的深度决定,这与公式(4)中的    不同,后者是相对于    的深度。
由于    表示潜在全局快门图像    的曝光时间,对应于扫描索引   ,我们定义    中像素位置    的曝光时间为   ,对应于扫描索引   。根据公式(9),我们可以得到    和   。然后,基于它们,右侧消去    可重写公式(12)为:
其中    是一个简写,用于表征复杂的底层滚动快门几何。
类似地,像素    从    到    图像平面的像素位移向量可以公式化为:
注意    可以为给定的滚动快门帧预定义。按照滚动快门时间超分辨率任务的问题设置,我们接下来利用在 [5], [10], [11], [12], [47], [49] 中广泛使用的假设    来避免非平凡的读出校准。这样,例如,如果像素    位于 480 高度滚动快门图像的第 120 扫描线,我们得到   。将    的所有像素的    和    堆叠起来(根据公式 13 和 14)得到像素级滚动快门感知变形映射,我们称之为双边运动场,分别表示为    和  
值得一提的是,公式(3)中的双向滚动快门未失真光流    和    是彼此独立的,这是因为它们依赖于不同的光流场。此外,它们也极度依赖于初始光流场的准确性。还要注意,关于    和    的前向变形运行存在多个像素映射到同一位置的风险,这种冲突可能导致重叠像素等伪影。相反,我们在公式(13)和(14)中建立了双边运动场    和    之间的几何连接,这不需要预先训练的光流网络。下面,我们分别在对称和非对称空间中构建它们的统一形式。

C. 对称双边运动模型

为了简洁起见,所有像素的曝光时间集合可以预定义为   ,这具有扫描线依赖性。此外,我们将    扩展为一个具有一个通道的 3D 张量   ,其高度和宽度与输入的滚动快门图像相同。一个全为一的二元映射表示为   。从公式(13)和(14)可以看出,在恒定速度相机运动的假设下,双边运动场    和    对于    是对称的,如图 3(c) 所示。

更具体地说,可以建立对称约束为:
因此,公式(8)中的客观函数可以在对称约束下通过以下方式重新表述:
其中    表示哈达玛德积。注意,时间偏移嵌入    和    可以将底层的时空运动一致性注入到双边运动基础    中,这对于重建平滑连续的全局快门视频是有益的。在第 V 节中,我们提出利用对称双边运动估计层来学习   ,该层在对称双边代价体的帮助下。

D. 非对称双边运动模型

由于对称约束建立在恒定速度相机运动和静态场景的假设上,公式(16)对于非均匀相机运动和特定于移动物体的运动模式的兼容性较差。为了提高滚动快门感知帧变形模型的鲁棒性,如图 3(d) 所示,我们扩展了公式(16)并提出了一个非对称双边运动模型,满足:
其中双边运动基础    和    可以由卷积神经网络学习。它们允许有不同的位移方向,即    和    具有非对称属性(见图 3(d))。这种放松在第 VI-B 节中被证明对于进一步提高全局快门恢复性能是有益的。

V. 提出的方法:LBCNet

给定两个输入的连续滚动快门帧    和   ,滚动快门时间超分辨率(RSSR)的目标是恢复中间的全局快门帧   ,其中  
不同于之前涉及误差倾向和相互独立的前向变形[10], [11], [12]或者额外的后处理[11], [13]的RSSR方法,我们展示了利用从粗糙到精细的双边运动场的几何连接可以导致一个有效和高效的RSSR模型。我们提出的方法是一个统一的、基于单一编解码器的架构,它首先使用共享编码器从输入的滚动快门图像中提取层次化上下文特征,然后通过从粗糙到精细的解码器逐步细化双边运动场和锚帧,直到生成最终的全局快门图像。具体来说,我们在每个金字塔级别上对锚帧合成进行遮挡推理,这可以填补目标全局快门帧的外观以增强双边运动估计。在另一方面,我们提出双边代价体以及时间偏移嵌入来估计更准确的双边运动场,这反过来可以促进变形特征与锚帧的对齐,从而恢复更真实的任意时间全局快门图像。这种互补运动和外观信息的协作探索有利于理解复杂的底层滚动快门几何。
注意,我们提出了对称和非对称双边代价体,它们分别对应于第IV-C节和IV-D节中描述的对称和非对称双边运动模型。结果,我们进一步提出了对称和非对称RSSR方法,分别记为LBCNet-sym和LBCNet-asym。为了简洁起见,除非另有解释,本文中我们使用LBCNet来指代LBCNet-asym,因为它的性能更好。图5概述了提出的框架的整体架构,包括特征金字塔提取器和联合运动估计与遮挡推理模块(JMOM)。接下来,我们将详细解释每个组件。

A. 特征金字塔提取器

对于两个连续的滚动快门输入,我们创建了L级别的特征表示金字塔来探索多尺度上下文信息。给定输入滚动快门图像   ,它最初被作为第0级别的底部,即   。对于第一(第1)金字塔级别,我们利用卷积层生成   ,其空间维度与输入相同。每个卷积滤波器后都附加一个PReLU激活[55]。随后,使用初始步长为2的类似卷积操作对第j级别的特征    下采样,其中   ,得到第    金字塔级别的特征表示   。通过这种方式,第j级别的空间分辨率是输入滚动快门帧的    。注意,每个金字塔级别的编码器参数对     和     是共享的。按照[23],我们构建了一个7级别金字塔(L=6),由6个CNN特征级别和作为底层的输入滚动快门图像组成。这有利于完全挖掘和对齐多尺度上下文线索以更好地进行帧合成。通过从第一级逐渐降低到第六级的空间维度,特征通道数分别增长到16、32、64、96、128和192。

B. 联合运动估计与遮挡推理

在提取有意义的层次化表示后,我们逐步细化双边运动和目标全局快门帧,从粗糙到精细。为了实现这一目标,我们提出了一个联合运动估计与遮挡推理模块(JMOM),其细节在图6(a)中详细说明。通过多尺度JMOM的传播,可以通过避免多个分离网络的串联来导出一个高效的单阶段RSSR框架。

以第j个金字塔级别为例,首先使用时间偏移嵌入    和    为    分别产生双边运动场    和   。然后,提出了包含双边代价体估计的锚帧合成层(AFSL),用于为每个曝光时间    生成目标全局快门帧,称为锚帧   。请注意,为了简单起见,我们将不严格区分锚帧    和锚特征   ,如图6(a)所示。
图6(b)中说明了锚帧合成层(AFSL)的细节。在AFSL中,双边运动场    和   ,双边代价体    以及锚特征图    被连接到    中。然后我们将    送入五个DenseNet块[56]中以学习底层的时空几何关系。每个块后跟一个PReLU激活。这些五个DenseNet块的特征通道数分别为128、128、96、64和32,从第二级到第六金字塔级别保持不变。
最后,DenseNet块的输出被送入两个独立的3 × 3卷积中。一个预测双边遮挡掩模   ,随后进行sigmoid操作以确保其值在0到1之间,这对于引导锚帧合成处理遮挡是必要的;另一个估计双边运动基础    并使用残差连接,如在[57], [58]中使用。这里,反卷积操作用于运动上采样,而最近邻插值用于遮挡上采样。同时,DenseNet块的输出通道通过反卷积相应减少到16,以便隐藏状态可以顺序地在级别间传递。注意,传递到第一级的隐藏状态最终用于估计上下文图像残差以恢复更高保真的全局快门图像。随后,  和隐藏状态被传递到第    级别。这个过程重复直到第二金字塔级别。
  1. 锚帧合成层:在双边运动估计中,由于没有中间的全局快门帧,因此不能采用传统的基于代价体的估计(即相关性[22], [23])定义在参考帧和目标帧之间。为了解决这个问题,我们提出在单个JMOM中同时估计双边运动场和目标全局快门帧(即锚帧)。这样,引入锚帧可以确保有效地构建双边代价体(见第V-B2节),使得JMOM自适应地学习双边空间中运动建模和外观重建之间的互补信息。
    我们在第二到第    金字塔级别基于变形特征合成锚帧,而在第一级别变形原始滚动快门图像以恢复最终所需的全局快门图像。具体来说,我们提出以一种遮挡感知的方式重建锚帧。注意,从第2级到第    级别,我们专注于估计双边遮挡掩模。这个操作有利于强制中间网络层更好地推理遮挡,进而促进上下文信息聚合。具体来说,我们使用双边运动场    和    将特征    和    向后变形,得到    和    作为目标全局快门帧的候选。然后,在双边遮挡掩模    的调制下,相应的锚特征    可以混合为:
  1. 双边代价体层:由于代价体是流的更具有区分性的表示[23],我们的流程中有一个层来构建双边代价体,如图7所示,然后由CNN处理以估计双边运动场。代价体提倡计算与参考图像中的像素相关的匹配成本与其在目标图像中的部分对应物[22], [23], [59]。注意,这里锚帧    被视为参考,而变形特征被视为目标。受[23], [57]的启发,我们使用变形特征作为搜索目标,这可以补偿滚动快门失真,并将锚图像块置于正确的位置。

我们从第二到顶层的金字塔级别构建双边代价体。为此,我们首先定义围绕    的局部窗口为:
其中    表示搜索半径。然后,对于第j个金字塔级别, ,我们定义双边代价体为    和    中像素关系的单边相关性的串联。具体来说,对于    中的每个像素   ,我们首先在其局部窗口内计算单边代价体。具体过程如下:
其中    是列向量    的长度。因此,  和    的维度将是   ,其中    和    分别表示第j个金字塔级别的高度和宽度。在L级金字塔架构中,最粗略级别的一个像素运动对应于最细分辨率的    像素,因此我们可以将    设得足够小以减少内存消耗。进一步,双边代价体    可以公式化为:
其中    表示在通道维度上的串联操作。因此,  的维度是  
注意我们不在顶层(L-th级别)合成锚帧   ,即    不存在。因此,公式(21)不能应用。为解决这个问题,我们直接计算    和    之间的相关性来生成顶层双边代价体,即:
此外,为了使网络能够学习有关插值时间的信息,我们在顶层嵌入时间偏移编码    和   ,这比    具有更好的时间编码能力(见第VI-D节)。这里,空间分辨率是输入滚动快门图像的   。如图5所示,  和    的串联被送入包含五个DenseNet块的CNN中,以同时估计双边运动基础    和双边遮挡掩模   。值得注意的是,双边运动基础    在顶层设置为零。作为起点,  和    将用于后续金字塔级别的运动估计和遮挡推理。
对称与非对称双边代价体层:还值得强调的是,我们根据公式(16)和(17)分别构建了对称和非对称版本的BCVL。它们根据    的通道维度来区分。为了简洁起见,我们使用    进行统一描述。一方面,如果    的维度设置为   ,我们可以使用公式(16)中的时间偏移嵌入统一地模拟对称双边运动场   。另一方面,如果我们将    的维度设置为   ,我们需要首先将其在通道上分成两部分。然后,根据公式(17),非对称双边运动场    可以通过    的前两个和最后两个通道的时间偏移嵌入分别生成。从概念上讲,基于对称和非对称运动场构建双边代价体的方案分别称为对称双边代价体层和非对称双边代价体层。

C. 损失函数

我们的LBCNet网络是端到端可训练的。假设总共有K帧全局快门图像需要恢复,其时间戳为   ,这些用于监督我们网络的训练。上标GT表示相应的真实全局快门图像。我们没有显式地施加标记的辅助监督,例如流蒸馏损失[19], [35], [60],在中间运动场上。我们的总损失函数    是重构损失   、感知损失   、多尺度一致性损失    和平滑损失    的线性组合,即:
其中   ,    和    是用于平衡不同损失的超参数。图像的像素强度被归一化。
重构损失   :我们采用最小化最终全局快门帧预测与全分辨率真实图像之间的像素级RGB差异的    重构损失,定义为:
其中    是Charbonnier函数[61],作为L1损失的可微替代。我们从训练稳定性出发,经验性地设置常数  
感知损失   :由于我们更关注最终全局快门帧预测的全分辨率,我们采用感知损失    [62] 来增强图像细节并改善期望输出的感知质量。同样,它被证实在各种图像合成任务[4], [20], [32], [63]中有助于缓解模糊伪影。  定义为:
其中    是预训练的VGG16网络[64]的conv4_3特征。
多尺度一致性损失   :为了强制每个锚帧    在中间金字塔级别与相应的真实图像对齐,我们额外施加多尺度一致性约束。上标    表示    分辨率图像。这能够促进网络推理底层遮挡和滚动快门感知像素位移,这对于指导最终全局快门帧合成至关重要。注意,锚帧的定义类似于公式(18),简单地将变形特征替换为多尺度的变形滚动快门图像,如图5所示。概念上,
其中    表示第    级别锚帧的重要性权重。
平滑损失   :我们发现仅应用图像约束很容易导致在未监督的时间戳(例如, )处的边界伪影。为了促进流畅的全局快门视频恢复,我们进一步鼓励最终双边运动场的分段平滑性[4], [5], [6], [11], [13],平滑正则化定义为:

VI. 实验

A. 实现细节

数据集:我们在Carla-RS和Fastec-RS数据集[4]上训练和评估我们的方法。Carla-RS数据集是使用Carla模拟器[65]从虚拟3D环境中生成的,涉及一般的六自由度相机运动。Fastec-RS数据集包含由专业高速全局快门相机合成的真实世界滚动快门图像。由于这两个基准提供了第一和中心扫描线的真实图像监督(即,监督时间   ),我们使用这个三元组(即, )来训练我们的网络。在测试阶段,我们的方法能够恢复对应于任意时间戳    的全局快门视频帧。注意,最近发布的BS-RSC数据集[6]专门用于滚动快门校正任务,并且只包含中心扫描线的真实图像监督,这不足以训练我们的模型,因此我们不能将其用于滚动快门时间超分辨率任务(见第VI-G节关于滚动快门校正的评估)。
训练细节:我们提出的流程是端到端可训练的,不需要预训练。我们构建了一个7级金字塔,即   。受到[23]的启发,我们为公式(27)中的    损失设置了权重   。权衡权重    分别设置为 100, 100, 0.1。搜索半径在每个双边代价体层设置为4像素,即   。我们对真实图像进行下采样以获得不同级别的监督信号。我们的网络是在PyTorch中实现的,使用NVIDIA RTX 3090 GPU。我们使用Adam优化器[66],学习率为0.0001。模型从头开始训练500个周期,批量大小为6,没有像[9], [10], [11]中那样繁琐的渐进式训练策略。与[5], [10], [11]类似,我们没有改变垂直分辨率,并且使用水平分辨率为256像素的统一随机裁剪来增强训练数据,以更好地上下文探索。同时,随机的水平图像翻转也被采用作为数据增强。
评估策略:由于Carla-RS数据集提供了遮挡掩模,我们按照[4], [10], [11]的后续做法进行定量评估,如下:带遮挡掩模的Carla-RS数据集(CRM),不带遮挡掩模的Carla-RS数据集(CR),以及Fastec-RS数据集(FR)。注意,除非另有说明,我们通常将时间    的全局快门图像作为一致的比较标准,并优先考虑LBCNet(指LBCNet-asym)进行全面评估。我们报告估计和真实图像之间的平均峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像补丁相似性(LPIPS)[67]的性能。较高的PSNR/SSIM或较低的LPIPS得分表示更好的质量。

B. 与最先进方法的比较

我们与以下基线进行了比较:
  • DiffSfM [40]:这是一个基于两个连续滚动快门图像的传统滚动快门校正方法,需要特定的滚动快门运动模型进行复杂的优化。
  • AdaRSC [6] 和 JCD [7]:它们是基于学习的滚动快门校正方法,输入三个连续的滚动快门帧,并仅恢复第二个滚动快门帧的中心扫描线对应的全局快门图像。
  • SUNet [5] 和 DeepUnrollNet [4]:为滚动快门校正任务设计的专用CNN,从两个连续的滚动快门帧中恢复全局快门帧。恢复不同时间戳的全局快门帧需要分别训练不同的模型。注意,连续的全局快门视频序列远未生成。
  • RS2SR [10] 和 CVR [11]:它们分别涉及基于几何和上下文感知的滚动快门时间超分辨率架构,其中使用了定义在(4)和(5)中的基于前向变形的滚动快门未失真光流场。它们可以从两个相邻的滚动快门图像生成全局快门视频。注意,基于后向变形的方法 [13] 旨在生成针对双反向滚动快门图像的全局快门视频,而不是连续的滚动快门输入,因此我们无法进行比较。
  • DAIN [8] 和 BMBC [9]:它们是针对全局快门摄像机量身定制的最先进VFI方法,这阻止了模型消除滚动快门伪影。
  • 串联方法:输入三个连续的滚动快门图像,我们实现了四种组合,首先使用滚动快门校正方法(例如 DeepUnrollNet 或 SUNet)获得两个未失真的全局快门帧,然后使用VFI方法(例如 DAIN 或 BMBC)插值中间的全局快门帧。注意,基于DeepUnrollNet和基于SUNet的串联方法分别在时间0.5和1处生成图像。
  • LBCNet-sym 和 LBCNet-asym:它们是我们提出的对应于对称和非对称双边代价体的RSSR方法。
我们在表II和表III中报告了定量结果。对于滚动快门伪影去除,我们的方法在所有情况下都大幅度超过了最先进方法,并且在计算上是高效的。带和不带遮挡掩模的PSNR差异仅为0.13 dB,这表明我们的方法可以更好地感知遮挡区域并修复它们。更灵活和通用的非对称构造也在性能上优于对称的。

视觉比较在图8中可视化。我们可以观察到我们的方法获得了更具吸引力的视觉效果,并且恢复了更多的细节,伪影更少。由于我们对滚动快门感知运动进行了公式化,提出的LBCNet比基于相互独立运动场的最先进RSSR方法[10], [11]表现更好。例如,对于低纹理的细长道路标志,RS2SR[10]在估计用于变形的准确滚动快门几何时存在困难,而CVR[11]由于运动估计不准确而引起混叠伪影。我们还可以看到,准确估计像素运动对于现有的滚动快门校正方法来说是一个巨大的挑战,例如[4], [5], [40],导致性能不佳。此外,最先进VFI方法没有能力去除滚动快门失真。直观的串联方法由于累积错误而容易受到局部错误和模糊伪影的影响,并且计算效率极低。与多阶段RSSR方法[10], [11], [12], [13]不同,我们的LBCNet通过网络模型联合解耦互补的运动和外观信息,实现了更高的准确性,同时更加轻量和高效。

图9展示了LBCNet全局快门恢复工作流程的直观理解。可以看到,我们的方法由于一次性的双边运动估计和锚帧重建,恢复了清晰愉悦的全局快门帧。此外,双边遮挡掩模可以成功识别变形候选区域的遮挡区域,从而促进有效的上下文聚合。进一步地,许多图像细节可以通过我们的上下文感知图像残差估计自适应地得到补偿,通常响应于运动边界和图像边缘。注意,这里我们展示了t = 0.5的中间过程,我们的方法能够恢复任意时间的全局快门帧。因此,我们的方法可以推理出时间感知的运动轮廓和遮挡,这对于恢复逼真的任意时间全局快门图像至关重要。

C. 双边运动场评估

我们知道,根据(16),对称双边运动场设计为具有相反的位移方向,而非对称双边运动场则有所不同,如(17)所示。为了验证非对称双边运动场如何反映这种差异,我们提出计算双边运动注意力,即:
其中    表示逐元素向量积操作。很容易验证对于对称双边运动场,双边运动注意力图保持为0。在图10中可视化了几个例子。更亮的区域表示更显著的差异。可以看到,我们的非对称双边运动场在具有挑战性的对象特定运动边界以及低纹理和遮挡区域表现出显著的差异性,这正是基于流的滚动快门校正任务需要关注的。因此,我们的非对称LBCNet能够实现更好的全局快门图像恢复能力,这归功于更通用的非对称策略。

D. 消融研究

我们研究了LBCNet中每个提出组件的作用,以进一步了解网络架构、损失函数和训练策略中的设计选择。
  1. 网络架构的消融:消融模型设计。我们调查了LBCNet中每个组件的贡献,即:
  • w/ T:我们将顶层的时间编码    替换为   ,即让网络学习任意插值瞬间。
  • w/o 时间偏移:我们在估计双边运动场    时移除了时间偏移嵌入    和   ,即    直接从用于滚动快门感知帧变形的4通道双边运动基础    中分离出来。
  • w/o 隐藏状态:我们不在金字塔级别之间传递隐藏状态,也不在第一级别使用隐藏状态来估计图像残差。
  • w/ 图像解码器:我们移除了公式(19),并使用第一级别的变形特征    生成   ,类似于公式(18)。最后,  与隐藏状态结合,通过两个堆叠的标准卷积来解码所需的全局快门图像  
  • w/o   :我们移除了网络末端的上下文感知图像残差估计,即取公式(19)中的    作为最终全局快门输出  
我们在表IV和图11、12中报告了消融结果。尽管使用    替代可以达到可比或次优的性能,但在恢复未监督时间戳(例如   )处的全局快门图像时,它经常产生边界伪影,如图11所示。此外,在全局快门视频帧的中心边缘也会出现抖动。因此,“w/ T” 不利于重建时间上连贯且视觉上流畅的全局快门视频。此外,移除时间偏移嵌入会导致网络无法有效地捕获时空运动信息,这会显著降低恢复的全局快门图像的质量,也会损害生成的全局快门视频的连贯性。这充分证明了我们提出的时间偏移嵌入策略对于RSSR任务的有效性和必要性。保持隐藏状态有助于网络更好地传递信息,从而在计算像素位移和增强视觉外观方面取得显著改进。同时,与在第一级别通过轻量级图像解码器生成所需的全局快门图像相比,直接在RGB颜色空间中操作可以以更高的精度合成全分辨率的全局快门帧。最后,估计图像残差    也是一个关键设计,它可以有效地补偿一些上下文细节,尤其是在运动边界和图像边缘,如图9和12所示。

消融对金字塔级别的研究:我们构建了不同级别的特征金字塔来验证我们LBCNet架构的有效性。随着网络容量的增加,滚动快门效果去除性能逐渐提高,如表IV所示。使用5级金字塔会导致略差一些的准确性。在Fastec-RS数据集中,我们默认的7级金字塔比6级金字塔有轻微的优势。我们认为这是因为更深的金字塔促进了对更大像素位移的感知。因此,我们设置了7级金字塔来平衡效率和准确性。
消融对双边代价体的研究:我们分析了(20)中不同搜索半径对我们方法性能的影响。定量结果报告在表IV中。可以看到,移除AFSL中的双边代价体    在滚动快门感知运动估计期间不会编码匹配候选项,导致结果一致性变差,如图12所示。这表明学习双边代价体可以有效地促进滚动快门感知运动感知和细节对齐。因此,所提出的双边代价体层可以被视为我们网络的核心单元。此外,较小的半径似乎迫使网络忽略具有显著滚动快门失真的像素,从而实现较低的度量分数。随着搜索半径的增加,性能因此趋于更好。由于4像素搜索半径已经能够处理输入分辨率下高达100像素的滚动快门感知位移,因此进一步增加搜索半径(例如   )不会带来明显的增益。
  1. 损失函数的消融:我们首先将(25)和(27)中的Charbonnier损失替换为L1损失。然后,我们逐一移除损失项,以分析它们各自的作用。如表IV所示,替换为L1损失会降低度量分数并降低全局快门视频质量。Ls损失对我们的LBCNet在监督时间戳(例如    )处产生轻微增益。更重要的是,我们经验性地发现添加Ls对于恢复未监督时间戳(例如    )处的平滑全局快门序列很有帮助,如图11所示,因为Ls为全局快门视频生成提供了对边界区域的关键一致性强调。此外,移除Lr损失将使网络无法收敛。我们提出的多尺度一致性损失    可以有效地促进从粗糙到精细的聚合,以指导最终全局快门帧的恢复。总的来说,我们的总损失函数    是有效的,当所有损失项都被采用时,性能最佳。
  2. 对监督信号的消融:我们通过分别组合不同的时间实例重新训练LBCNet。具体来说,我们使用单个或两个时间实例对应的真实图像进行监督,如表V所示。可以看到,仅使用单个时间实例(例如    或    )使网络倾向于学习特定时间对应的滚动快门效果去除(即退化为滚动快门校正),在其他时间戳处表现不佳。此外,使用两个时间实例进行监督可以带来整体改进。然而,我们发现它们在估计远离监督时间实例的全局快门帧时会产生低质量的图像生成。例如,如果监督的时间实例是0.0和1.0,那么对应的时间    的全局快门图像将不满意,使得全局快门视频不平滑。注意,使用0.5和1.0两个时间实例进行监督与我们的评估一致,可以产生与完整模型相似的性能。不幸的是,它在恢复时间戳    处的全局快门图像时经常会失败。监督时间实例太少因此不足以派生出有效的RSSR模型。由于我们采用三个均匀分布的时间实例(即0, 0.5和1.0)来训练LBCNet,更多的时空一致性被引入,自然地得到了最佳的全局快门视频恢复。因此,我们认为如果可能的话,提供更多的真实图像作为监督可以进一步提高我们方法在全局快门视频生成中的性能。

E. 滚动快门时间超分辨率结果

我们将LBCNet应用于在任意时间    生成多个中间全局快门帧。5倍时间上采样的视觉结果如图13所示,其中我们的方法准确地再现了逼真的时间连续全局快门图像序列。原则上,我们的方法允许任意帧率全局快门视频生成。我们附加了一个补充视频来动态显示恢复的全局快门视频。总的来说,我们的流程不仅可以成功去除滚动快门失真,而且可以生成平滑和连续的视频。

F. 泛化评估

为了评估LBCNet在真实数据上的泛化能力,我们使用了[40]和[51]提供的真实世界场景的滚动快门图像。真实场景在[51]中使用30 Hz旋转主导的手持相机记录,[40]收集了30 Hz的720p滚动快门图像。它们与训练数据集(例如,Carla-RS:20 Hz;Fastec-RS:5 Hz,480p)显著不同。注意,这些测试样本具有明显的滚动快门伪影,并且已广泛用于滚动快门校正的可用性评估,例如[5], [11], [36], [38], [39], [48], [49]。示例结果如图14所示。我们的方法有效且稳健地去除了滚动快门效果,并生成了视觉上令人愉悦的全局快门图像序列,这验证了我们方法在实践中的优秀泛化能力。

G. BS-RSC数据集上的滚动快门校正结果

由于BS-RSC数据集[6]是为真实世界滚动快门校正任务提出的,我们使用它来训练我们的网络,以恢复第二个滚动快门帧的中心扫描线对应的全局快门图像。注意,我们没有改变LBCNet的网络结构,只在训练期间设置   。如表VI所示,我们的方法在真实世界滚动快门校正任务上取得了极其显著的优势,与最先进的滚动快门校正方法相比,PSNR提高了3.56 dB。注意,AdaRSC [6] 和 JCD [7] 需要三个连续的滚动快门帧作为输入,而我们的方法只需要两个。我们将这种改进归因于我们的单一、统一的架构设计,它有效地促进了互补运动和外观线索的交互。图15展示了视觉结果。我们的方法成功去除了真实世界滚动快门失真,并以更少的伪影重建了更多的图像细节。因此,我们的流程不仅对特定时间的滚动快门效果去除具有巨大潜力,而且对任意时间的全局快门插值也具有潜力。

在这里插入图片描述

VII. 讨论

由于Carla-RS和Fastec-RS数据集的读出时间比率是固定的,这很容易导致训练出的模型对训练数据集产生偏差,从而在迁移到具有较大读出时间差异的滚动快门图像时效果不佳。注意,这是基于学习的滚动快门校正[4], [5], [6], [7]和滚动快门时间超分辨率[10], [11], [12]方法的一个顽固问题,因为训练出的模型等同于封装了特定读出设置对应的滚动快门几何。同样,传统的滚动快门校正方法[1], [40], [49], [68]也无法避免这个问题,它们在估计双视图滚动快门几何时需要事先进行非平凡的读出校准。因此,开发出对读出时间比率鲁棒的方法将是未来一个有前景的研究方向,例如结合事件摄像机[69]的高时间分辨率优势。此外,尽管我们的方法有效提高了计算效率,但当前在低功耗移动设备上实现实时滚动快门时间超分辨率仍然是具有挑战性的,因此加速这一模型也是我们未来的工作之一。

VIII. 结论

总的来说,本文我们开发了一个紧凑而有效的单阶段框架,用于滚动快门图像的时间超分辨率。我们提出了一个统一的双边运动模型,它有助于通过时间嵌入辅助学习双边代价体,以实现任意时间的全局快门图像恢复。我们的流程通过从粗糙到精细聚合互补的运动和外观信息,利用底层的时空一致性。我们的方法具有运动补偿、上下文聚合、遮挡推理和时间抽象的优势。实验验证了将深度学习与内在几何知识相结合不仅可以减小模型大小,而且可以显著提高性能,超越了现有最先进方法。未来,我们希望将这种方法扩展到多帧滚动快门视频输入,同时也解决来自滚动快门相机的其他视频重建任务。

声明

本文内容为论文学习收获分享,受限于知识能力,本文队员问的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
   
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


浏览 18
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报