MMA-UNet | 一种多模态非对称融合网络，提高红外与可见图像融合性能！-轻识

多模态图像融合（MMIF）将来自不同模态的有用信息映射到相同的表示空间中，从而产生信息丰富的融合图像。然而，现有的融合算法倾向于对称地融合多模态图像，这导致融合结果在某些区域丢失浅层信息或偏向于单一模态。

在本文中，作者分析了不同模态中信息空间分布的差异，并证明了在同一个网络中编码特征不利于实现多模态图像的深度特征空间同时对齐。为了克服这个问题，作者提出了一个多模态非对称UNet（MMA-UNet）。

作者分别为不同的模态单独训练了专门的特征编码器，并实施了一种跨尺度融合策略，以保持不同模态的特征在相同的表示空间内，确保了平衡的信息融合过程。

此外，作者还进行了大量的融合及下游任务实验，以证明MMA-UNet在融合红外和可见图像信息方面的效率，产生了视觉自然且语义丰富的融合结果。其性能超越了现有的比较融合方法。

1. Introduction

红外与可见光图像融合（IVIF）技术将不同模态传感器捕获的有用信息整合在一起，以对目标场景进行全面的解释（Sang等人，2014年；Wang等人，2015年；Wang等人，2016年；Wang等人，2017年；Wang等人，2018年；Wang等人，2019年）。可见光图像（VI）有效地捕捉目标场景的全局细节和颜色信息，而红外图像（IR）擅长突出温度信息。通过有效地融合这两种模态的信息，可以实现对各种光照条件和复杂环境的全面感知。此外，IVIF可以有效地辅助下游任务，如目标检测、语义分割以及深度估计等。

近年来，IVIF被广泛分为两大类：从多模态图像中提取特征的传统图像处理方法和训练高性能图像融合模型的神经网络架构。

为了追求更强的泛化能力和融合精度，最近的努力主要集中在神经网络架构上。IVIF是图像处理领域的一个非典型图像逆问题，没有由真实情况指导。因此，在IVIF中难以引入有效的深度学习监督学习范式。然而，现有的无监督IVIF方法可以实现吸引人的融合结果。然而，在多模态图像间信息空间分布不一致的情况下进行融合仍然是一个未解决的问题。

由于潜在问题，在单一框架内融合不同模态的图像可能会导致源图像信息的丢失或偏向于单一模态的特征。例如，赵等人（Zhao et al., 2019）提出了一种双分支特征分解IVIF，利用Transformer和卷积层分别提取图像的全局和局部特征。然而，特征分解模式仅使网络能够从多模态图像中学习到显著的细节或能量，而没有考虑它们之间的特征交互，导致融合结果中多模态信息分布不均匀。李等人（Li et al., 2020）引入了图交互模块以促进跨模态特征交互学习。在特征交互之前，必须提取不同模态图像的浅层特征。

然而，由于忽略了多模态图像之间信息空间分布的不一致性，不能确保在交互学习期间输入到图交互模块的多模态特征位于相同的表示空间内。这导致了交互学习策略性能的下降。此外，一些研究者（Wang et al., 2019）在特征提取过程中引入了注意力机制以实现跨模态感知。这种方法涉及分别为每种模态的特征生成注意力图，然后交叉引导多模态特征的重构。

然而，交互式引导可能并不一定有助于有效的特征提取。当一个模态图像的信息内容较小时，生成的注意力图可能会在识别有用特征时误导网络。罗等人（Luo et al., 2019）提出了一种基于分离表示学习的融合方法，以实现图像的去纠缠表示，并在多模态图像中区分共有和私有特征。

他们遵循多模态图像只共享相同共有特征的原则，并使用公式“私有特征 + 共有特征 = 源图像”来约束网络。然而，由于不同模态捕获同一场景的固有差异，图像之间的共有特征可能并不完全相等。它们表示同一事物的相似方面，如在VI中的细节和IR中的微弱纹理。总之，上述方法，无论是从全局-局部、跨模态特征交互、跨注意力引导，还是共有-私有特征的角度，都没有考虑多模态特征之间信息空间分布的差异。因此，需要复杂或固定的范式来推理更优的融合性能。

在本研究中，作者重新考虑了针对IVIF的多模态特征提取方法，并设计了一种简单有效的非对称融合结构，以克服多模态图像中信息空间分布不一致的问题。

作者分析了多模态特征在空间分布上的差异，并观察到相同网络在不同模态图像中达到深度语义空间的速率存在差异。主要贡献总结如下：

针对IVIF，作者提出了一种多模态非对称UNet（MMA-UNet）架构，与现有的复杂范式相比，该方法在融合多模态特征时更为简单和高效。
作者发现了红外（IR）和可见光（VI）之间空间信息分布的差异，并推导出了一个非对称网络。所提出的方法有效地在相同的表示空间中保留了不同模态的特征，为MMIF提出了一种新的融合范式。
作者在现有的公共数据集上验证了MMA-UNet的有效性和优越性，在下游任务上其性能超过了现有的最先进算法。

Motivation

现有的IVIF算法主要关注于高效学习多模态特征交互，而忽略了多模态图像中空间信息分布的不一致性。因此，作者重新思考了多模态融合范式。首先，分别在IR和VI数据集上训练了两个独特的UNets，分别表示为IR-UNet和VI-UNet。然后，作者计算了两个UNets编码器提取特征的中心核对齐（CKA）（Zhou等人，2017）相似性。如图1(a)和(b)所示，请注意，层的总数量远大于UNet所述的深度。后者仅考虑网络中的卷积层，但作者包括所有中间表示。具体来说，对于UNet框架，第一个卷积块包含7层特征中间表示，第二到第五个卷积块包含11层特征中间表示。神经网络倾向于最初学习浅层特征，随着网络深度的增加，它们逐渐深入到更深的语义空间进行特征学习。浅层特征大多是相似的。然而，随着网络深度的增加，深层和浅层特征之间的差异增加。IR在前22层捕获浅层特征，因为它们与周围特征具有更大的相似性，如图1(a)所示。当网络深度超过22层时，提取的特征与周围特征有显著差异，在图1中表现为更深的颜色。相反，VI的特征提取网络从第12层开始显示出其独特性，并且后续特征之间的差异持续增加。因此，作者观察到在相同架构下，VI比IR更快地达到深层语义空间，并且在作者的网络中，VI可以比IR快10层提取浅层信息。

一些研究（Zhou等人，2017；Liu等人，2019）报告称，多模态图像可用于在MMIF中区分公共特征和私有特征。公共特征具有高相似性，而私有特征则不具备。如图1(c)所示，作者计算了VI和IR各层特征之间的CKA相似性。IR的前30层特征与VI的前20层特征高度相似，表明IR私有特征的提取速度慢于VI。此外，这再次验证了上述结论，即VI比IR更快地达到深层语义空间。

2. Related Work

作者先从两个主要领域回顾相关工作：首先，作者讨论基于深度学习的图像分类的最新进展；其次，作者涵盖关于少样本学习及其在目标检测中应用的研究。

Infrared and Visible Image Fusion Methods

现有的基于深度学习的IVIF算法主要分为两类：生成模型和编码模型。生成模型主要基于生成对抗网络（GAN）和扩散。它们旨在从潜在空间学习数据分布，并通过生成数据模拟目标数据的分布。例如，Liu等人（2019）提出了一种面向目标的双对抗学习策略，以生成对下游任务有益的融合结果。他们设计了目标和细节判别器分别从IR和VI学习目标特征。

为了解决基于GAN模型中训练稳定性弱和缺乏可解释性的问题，Zhao等人（2019）为IVIF引入了去噪扩散模型，将融合任务定义为无条件生成的子问题和一个最大似然子问题。相反，编码模型不生成新的数据样本，而是从原始输入数据中提取关键特征，将原始数据映射到一个更紧凑的表示空间。例如，Ma等人[22]将Swin Transformer引入到图像融合中，融入了注意力引导的跨域模块。这种设计有效地整合了多模态的互补信息和全局交互信息。

为了增强特征提取的可解释性，Li等人[10]提出了一种基于表示学习的图像融合框架，建立了数学公式和网络架构之间的联系以增强特征提取的可解释性。他们利用低秩表示学习理论建立图像分解模型，有效地避免了耗时网络设计。由于图像融合框架的不断完善，一些研究行人开始分析融合模型在促进下游任务方面的性能。出现了许多多任务联合学习方法[15, 34]。例如，融合与目标检测[15]，融合与语义分割[17, 34]，融合与显著目标检测[40]，以及融合与低光增强[33]。它们通常通过融合结果在下游任务上的性能反馈来指导融合网络的学习。此外，由于多模态传感器在成像过程中存在空间变形和不对齐，一些研究提出了“配准与融合”模型（Shi等人，2017；Wang等人，2018；Wang等人，2019），以有效地避免算法对配准数据对的过度依赖。

3. Method and Analysis

在本节中，作者首先提供了MMA-UNet的所有组件和损失函数的详细信息。然后，进一步分析了非对称架构设计的原则和可行性以及指导机制。

IR-UNet and VI-UNet

在第一阶段，分别使用红外（IR）和可见光（VI）独立训练了两个不同的UNet模型。请注意，首先训练的是IR-UNet，然后是VI-UNet训练。如图2所示，为了训练VI-UNet，作者引入了原始的UNet架构（Wang等人，2018年）并通过将输入和输出转换为三个通道来进行微调。为了训练IR-UNet，作者利用来自VI的信息来辅助IR-UNet学习IR特征，从而加速网络的特征提取过程。具体来说，自动编码器的一部分与VI-UNet是一致的。唯一的区别在于编码器的特征提取阶段，作者在那里采用Squeeze-and-Excitation（SE块）（He等人，2016年）来获得VI信息的注意力图，然后将它们与IR特征图进行逐元素相乘。这个过程可以将VI捕获的显著信息注入到IR特征中，以辅助IR-UNet网络提取特征。值得注意的是，在IR-UNet的训练过程中，VI-UNet的参数被冻结。为了分别训练这两个UNet模型，引入了均方误差（MSE）作为损失函数，以实现图像分解和重建，使用以下公式：

其中和分别表示图像的高度和宽度，表示输入图像，表示输出图像。

Asymmetric UNet

第二阶段涉及融合和重建。与普通的融合方法（Wang等人，2019年）相反，作者采用了非对称架构。由于不同模态的图像具有独特的信息空间分布，因此在同一架构中，提取深层语义特征的卷积层数也应根据不同模态而变化。因此，作者设计了一个非对称的UNet架构，通过结合CKA相似性结果，使得具有相同信息空间分布的不同模态特征可以进行融合。

具体来说，如图2所示，作者使用了IR-UNet和VI-UNet的编码器来提取IR和VI的低 Level 和深层语义特征。随后，作者将VI-UNet的前四层特征与IR-UNet的最后四层特征进行融合。例如，作者将VI-UNet的前四层特征与IR-UNet的最后四层特征融合，生成四组融合特征图。对于融合策略，作者首先将VI的特征图下采样以匹配IR的特征图大小。然后对添加的特征执行特征加法和通道注意力操作（Vaswani等人，2017年），这放大了重要特征并抑制了不相关特征。最后，作者重建融合特征以获得融合图像。

对于解码器的前三层，作者使用卷积和像素Shuffle操作进行上采样。解码器的最后一层在原始基础上添加了一个卷积核。在第二阶段，作者引入了MSE、结构相似性指数测量（SSIM）和L1范数来计算相关的损失函数。SSIM计算如下：

其中和代表两张不同的图像。代表图像的均值，代表图像的标准差，代表图像和的协方差。和是用于防止公式分母接近0的常数。因此，结构损失，的计算公式如下：

细节损失，，表达如下：

其中是一个索贝尔算子。

总损失函数，，可以表达为：

其中F代表融合图像。

Analysis for Multi-modal Feature Extraction

先前的研究（Wang等人，2018；Wang等人，2019；Wang等人，2019）没有讨论在相同框架下不同模态的特征提取速率的差异。为此，作者对VI-UNet和IR-UNet的特征图进行了视觉分析。图3(a)展示了不同层次特征图的加和结果。在浅层中，编码器提取像素级特征，如树叶和草的纹理以及行人的细节。同时，这种浅层信息可以在不同模态的图像中被识别。当两个模态的相同层次执行加法操作时，结果变得冗余。对于MMIF任务，关注从不同模态获得的互补信息至关重要。对于公共特征，应优先提取由VI传感器捕获的像素，因为它们更接近人类视觉系统（HVS）。此外，处理来自多个模态的大量相似特征会削弱模型的表示能力，从而影响其性能和泛化能力。相反，非对称融合对应于MMIF的概念，它整合了来自不同模态图像的有用信息并消除冗余信息。它融合了IR辐射信息同时保留了VI细节。随着层数的增加，编码器提取的特征变得更加抽象。在特征提取深度上存在不平衡，其中一个模态提取的特征更抽象，而另一个模态的特征相对较浅。因此，直接融合可能导致模型过度依赖抽象特征，导致信息不平衡。在相同层的融合结果中失去了来自IR的特征信息，而从非对称融合策略获得的结果中，多个模态的互补特征得到了很好的保留，如图3(b)所示。

Analysis for Guidance Mechanism

由于不同模态的空间信息分布不一致，同一框架内提取深层语义特征的速度存在差异。为了加快从红外图像(IR)中提取深层语义信息的速度，作者利用视觉图像(VI)特征来指导每一层IR特征的重建。作者比较了使用两种不同训练方法获得的两组CKA相似性。如图4所示，在没有引导机制的IR-UNet中，仅在30层之后出现了显著的语义信息分歧。然而，引入引导机制后，IR-UNet在第22层之后开始展现出深层语义特征。这一实验现象表明，引导机制促进了跨模态知识转移，使IR-UNet能够更快地学习与任务相关的语义特征，并加速模型的过拟合速度。

4. Experiment

实验部分的开头。

Experimental Setting

在两块NVIDIA GeForce RTX 3090 GPU和一块64核心的Intel Xeon Platinum 8350C CPU上进行了实验。VI-UNet和IR-UNet的实验设置相同。作者选择了AdamW优化器来调整训练参数。基础学习率最初设定为，权重衰减设定为。采用了余弦退火策略来自适应地调整学习率。在数据增强方面，作者采用了随机尺寸裁剪。此外，融合框架的实验设置与IR-UNet略有不同。基础学习率改为。在损失函数中，和分别设置为和。

Dataset and Evaluation Metrics

作者选择了M3FD（刘等，2017）和MSRS（刘等，2017）作为实验的数据集。具体来说，作者从M3FD和MSRS中分别选取了4200和1083对图像作为训练集。至于测试集，有300对M3FD图像和361对MSRS图像。

为了验证MMA-UNet在融合性能上的优越性，作者选择了七种最先进的（SoTA）比较方法。这些比较方法涵盖了所有流行的多模态融合（MMF）框架，包括算法展开模型（LRRNet）（刘等，2017），混合模型（CDDFuse）（王等，2017），基于CNN的模型（MFEIF）（刘等，2017），基于Transformer的模型（TGFuse）（王等，2017），基于GNN的模型（IGNet）（王等，2017），基于GAN的模型（TarDAL）（刘等，2017），以及基于扩散的模型（DDFM）（王等，2017）。

作者选择了五种流行的客观评价指标来对不同融合方法进行定性评估，包括Chen-Blum度量（），基于边缘的相似性度量（），视觉信息保真度（VIF），结构相似性指数（SSIM）和峰值信噪比（PSNR）（王等，2017；王等，2017）。对于这些指标，分数越高代表融合图像的质量越好。

在检测任务中，作者使用了M3FD提供的标记图像对，并按照6:3:1的比例将它们划分为训练集、验证集和测试集。作者采用了主流的检测网络，YOLOv7（Redmon等，2016），来检测融合结果。在分割任务中，作者使用了MSRS提供的训练集和测试集来进行分割网络的训练和测试实验（王等，2017）。为了确保实验的严格性，所有下游任务模型的实验设置严格遵循原文中提供的条件。

Qualitative Analysis

融合分析. 如图5所示，在细节和结构信息方面，MMA-UNet优于比较方法。例如，在第一组融合图像中用圆圈标记的区域，当被浓烟遮挡时，MMA-UNet能够很好地保留由IR捕获的山脉边缘轮廓和详细纹理信息。此外，在第二组融合结果中，当VI过曝时，MMA-UNet能够很好地保留IR中的房屋结构并消除过曝。这都是由于在相同特征空间的非对称融合，实现了不同模态的信息平衡。最后，IGNet、MFEIF和DDFM在两组融合结果中都不同程度地丢失了细节信息并降低了对比度。

检测分析. 图6展示了MMA-UNet与比较方法在检测实验中的对比。在这种情境中，VI中的烟雾遮挡了内部的行人信息。因此，融合方法需要识别提取干扰特征的像素，并从IR中捕捉最有价值的的热能信息。如图6所示，检测器在使用MMA-UNet时获得了最高的准确度，这表明了所提出算法对下游任务的有益效果。

分割分析. 图7展示了不同方法生成的融合图像的语义分割结果。正如两组实验所示，只有MMA-UNet始终提供最准确的目标信息，并且在捕捉远处黑暗中隐藏的行人信息方面表现出强大的能力。这表明所提出的非对称结构有效地保留了来自不同模态图像的互补信息。对于其他算法，由于冗余信息，例如从VI捕捉更详细但更弱且更多干扰的像素信息，分割失败的情况会发生。

Quantitative Analysis

融合分析。表1列出了两个公共测试数据集中五个客观度量的平均值。总体而言，无论使用MSRS还是M3FD，MMA-UNet都取得了最佳性能。具体来说，两个度量标准SSIM和始终表现出最好的值，表明MMA-UNet能够保留源图像的结构和对比度，并生成与HVS最一致的融合结果。VIF和PSNR的排名略有波动，但始终表现出高性能。优秀的PSNR和VIF值证明作者的融合结果具有强大的鲁棒性和高信息保真度。对于两个数据集，排名第三，MMA-UNet展现出稳定的边缘信息保持能力。

检测分析。表2展示了包括源图像在内的所有方法在M3FD中各类别的检测准确性。MMA-UNet在AP@0.5和AP@[0.5:0.95]方面表现出优于其他方法的检测准确性。由于各种复杂环境常常影响单一模态的检测性能，而MMIF可以增强检测鲁棒性，因此融合图像通常能获得更好的检测准确性。此外，MMA-UNet在各种类别中展现出优秀的检测准确性，特别是对于人类，表明在人类身上保持了优秀的细节和结构信息。

表1：在M3FD和MSRS数据集上，MMA-UNet与七种SoTA方法的定量比较。排名第一、二、三分别用红色、蓝色和绿色字体表示。

表2：在MSRS数据集上，比较方法和MMA-UNet在各类别上的分割准确性。排名第一、二、三分别用红色、蓝色和绿色字体表示。

图3：V11代表UNet第一卷积层的中间特征表示。同样适用于IR1、IR2、IR3和V2。V1+IR1表示将两个特征相加以获得融合图。V1+IR2、V12+IR2、V12+IR3同理。为了简化表示，作者省略了采样操作。

分割分析。表3展示了包括源图像在内的所有方法在MSRS数据集上各类别的分割度量。MMA-UNet取得了最佳的分割准确性。首先，由于MMIF的优势，融合方法通常比单一模态图像获得更高的分割准确性。此外，MMA-UNet在每个类别的分割准确性排名更高，表明在不同的场景中具有稳定的融合性能和丰富的语义信息生成。

表4：在M3FD数据集上，提出的方法和各种消融策略获得的客观度量平均值。总体而言，MMA-UNet实现了最佳的融合性能。具体来说，失去了VI对IR-UNet特征提取的指导后，对称和不对称融合方法在保留源图像的结构信息和保真度方面都表现得比MMA-UNet差。这主要归因于VI的指导有助于对两种模态的信息空间分布进行对齐，这对后续的融合和融合图像重建是有利的。此外，尽管E4使用了VI指导的IR-UNet，但其过于不对称的方法丢弃了过多的浅层IR信息，导致图像保真度、结构相似性和边缘信息保持度显著下降。最后，从E5可以看出，交换不对称结构会导致模型融合性能下降。这可以归因于特征融合表示空间存在显著差异，导致融合过程中丢失了细节和语义信息。

上述实验证实了所提出不对称结构的有效性，证实了VI特征提取比IR更快地到达更深语义空间的结论的有效性。

表4。E1表示MMA-UNet；E2表示在没有VI指导的情况下使用IR-UNet进行对称融合；E4表示在VI指导下进行IR-UNet的不对称融合，其中VI-UNet的前三层与IR-UNet的后三层融合；E5表示交换E1的不对称结构。

图4。中心核对齐。(a)和(b)分别表示在IR-UNet中，在有无指导机制的情况下，所有层对之间的CKA相似性计算。

图5。M3FD和MSRS上MMA-UNet与SoTA比较方法获得的主观融合结果比较。

表3。在M3FD数据集上，比较方法和MMA-UNet在各类别上的检测准确性。排名第一、二、三分别用红色、蓝色和绿色字体表示。

5. Discussion

第五节讨论部分的开头。

Conclusion

在本研究中，作者提出了一种针对IVIF的不对称UNet架构，为融合多模态图像特征提供了一种简单而高效的方法。作者分析了IR和VI模态之间空间信息分布的差异，并推理出在同一框架内从不同模态提取深层语义特征的速度存在差异。为了解决这个问题，作者设计了一种基于不同层数的跨尺度融合规则。随后，作者为训练IR-UNet设计了一种引导机制，观察到使用VI特征的简单引导提高了IR中深层语义特征提取的效率。实验结果表明，MMA-UNet优于现有主流架构，在MMIF及下游任务中取得了良好的性能。

Limitations and Future Work

在本研究中，作者揭示了红外（IR）和可见光（VI）之间信息空间分布的差异，并提出了一种特殊的、非对称的、跨尺度融合网络架构。然而，所提出的非对称UNet需要手动分析不同模态图像之间信息空间分布的差异，并根据这种差异设计特征融合的层数。因此，在未来的工作中，为了将所提出的方法扩展到更广泛的视觉任务中，作者旨在设计一种自适应机制，以选择性地调节不同模态特征融合中层差的调节。

参考

[1].MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion.

MMA-UNet | 一种多模态非对称融合网络，提高红外与可见图像融合性能 ！