CVPR2023:多样性-可测量异常检测-轻识

论文题目

Diversity-Measurable Anomaly Detection

摘要

基于重构的异常检测模型通过抑制异常泛化能力来实现其目的，然而，不同的正常模式也因此不能很好地重建。尽管已经通过对样本多样性进行建模来缓解这一问题，但由于不希望传递异常信息，它们存在捷径学习的问题。为了更好地处理这种权衡问题，我们提出了多样性-可测量异常检测(DMAD)框架，以增强重建的多样性，同时避免对异常进行不必要的泛化。为此，我们设计了金字塔变形模块(PDM)，该模块对不同的正态线进行建模，并通过从重建参考到原始输入估计多尺度变形场来测量异常的严重程度。PDM集成了信息压缩模块，从本质上解耦了原型嵌入的变形，使最终的异常评分更加可靠。在监控视频和工业图像上的实验结果表明了该方法的有效性。此外，DMAD在污染数据和异常样正常样本前同样有效。

1. 介绍

视觉异常检测是计算机视觉领域的一个基础和重要问题，在视频监控和工业检测中有着广泛的应用。它旨在从可见类中检测异常值，从不可见类中检测新模式。这项任务非常具有挑战性，因为异常数据分布多样，收集成本很高。因此，我们必须在无监督设置下仅基于正常样本构建模型，以针对正常和异常样本的高区分。

在过去的十年中，基于重构的方法在异常检测方面取得了很大的进展。这些方法使用自动编码器(ae)或生成对抗网络(GANs)从任何输入图像或视频帧中重建正常对应。基于ae的方法首先对输入进行压缩，丢弃超出正常原型的信息，然后对嵌入进行解码，重构输入，根据估计的重建误差，可以检测到异常。

然而，基于重建的异常检测方法的性能一直受到一个棘手问题的限制，即重建多种正态线和检测未知异常之间的权衡。为了更容易区分异常，以往的作品在自动编码过程中对异常信息进行了更多的抑制约束，导致对不同正常实例的重构误差很高。例如，在图1和图2g中，严重变形的正常(又称类异常)样本“7”的误差甚至高于异常样本“4”。为了更好地重构多样化的法线，每个查询向量对应于内存中的多个原型，即使异常投影离原型很远，这些原型也可能被组合成异常嵌入。因此，分布在原型嵌入之间的低似然区域的异常很难从不同的正态线中识别出来。MNAD引入了用于多种重构的跳过连接和附加约束，以解决不正确的组合问题。而后者的力量模式传递得更为肆无忌惮包含异常部分的信息通过跳接的方式进行学习，造成了学习的捷径和异常重建的不期望。

解决上述权衡问题的关键是找到一个适当的测量正常和异常样本的多样性，这与异常的严重程度呈正相关。利用这种方法，我们不需要与不完美的法线重建或不期望的异常重建作斗争，因为多样性测量结合重建误差可以更准确地检测异常。请注意，像素重建误差不是多样性的理想测量，因为高误差区域经常将异常与各种法线混淆，例如，具有结构变形的法线和接近背景的颜色的异常可能产生不可靠的重建误差。

本文提出了一种多样性-可测量异常检测(DMAD)框架，以提高重构多样性的可测量性，从而更准确地测量异常。我们的基本思想是将重建解耦为原型法线的紧凑表示和更多不同法线和异常的可测量变形。分集可以补偿被低估的重构误差，分集可以适当地测量。为此，DMAD框架包括一个金字塔变形模块(PDM)来建模和测量多样性，以及一个信息压缩模块(ICM)来学习原型正态模式。

我们假设异常(例如在视频监控中)可以表示为外观的显著变形，包括位置变化和精细运动。相反，不同的正常样品可以表示为较弱的变形，因此很容易与异常样品区分开来。因此，我们设计PDM来模拟正态的多样性以及异常的严重程度。更具体地说，PDM学习分层二维变形场(图2c,d)，描述像素级转换方向和从参考(图2b，从内存中的原型重构)到原始输入的距离。在ICM中，我们将压缩表示学习为稀疏原型。因此，单个内存项足以表示每个正常集群，这比其他需要多个记忆项的基于记忆的工作更紧凑。DMAD将PDM与ICM相结合，从本质上解耦了类原型的变形信息(图2e)，并使最终的异常评分更具判别性(图2f)。

我们在视频监控和工业缺陷检测场景中评估了我们的异常检测框架。为了在后一种情况下应用DMAD，我们提出了一种PDM的变体PPDM来处理纹理重建中的误报问题，大量的实验结果验证了该方法的有效性。此外，即使在污染数据和类异常正线面前，我们的方法也能很好地工作。

我们的工作主要贡献如下:

•我们引入了多样性可测量的异常检测框架，该框架允许基于重建的模型在重建多种正态线和检测未知异常之间实现更好的权衡。

•我们提出金字塔变形模块来实现多样性测量，其中变形信息与紧凑类原型明确分离，由此产生的多样性测量与异常正相关。

•我们的方法优于之前在视频异常检测和工业缺陷检测方面的工作，并且在污染数据和异常样正常前工作良好，证明了其广泛的适用性和鲁棒性。

2. 相关工作

异常检测 基于重建的方法对正态数据的分布进行建模，并分配具有高重建误差的异常，因为仅用正态数据训练的模型无法重建异常。一些作品使用自编码器来检测异常，如卷积自编码器和变体。其他方法引入额外的约束或内存，使模型更具判别性。例如，稀疏编码通过正则化减少了表示冗余;记忆增强自编码器(MemAE)利用外部记忆库记忆训练数据集中出现的正常模式;变分自编码器假设正态数据的先验分布来约束非线性表示能力;Hf2v AD使用CV AE捕捉运动之间的相关性。帧预测假设视频中的异常样本不能用不包含看不见的信息的过去帧来表示，并迫使模型对不同帧之间的变化进行编码。此外，自编码器还可以与外部目标检测器结合使用，以捕获背景不变的外观。虽然这些方法通常工作良好，但由于重建和判别之间的权衡，它们往往难以区分异常样本和类异常正态。在我们的框架中，利用金字塔变形模块和信息压缩模块来解决权衡问题，显著提高了异常检测的性能。

记忆网络 生成模型在特征空间中连续映射，它们可能比正常模型赋予更高的异常概率。最近的研究探索了离散外部存储器的应用，即使输入是异常的，也能产生正常模式。MemAE提出了一种内存增强自编码器，它使用来自编码器的信息作为查询，并获得从内存模块检索到的正常模式。MNAD引入了跳过连接，以缓解不同的正态模式可能产生高重构误差的问题。HF2V AD将内存模块扩展到多级内存，并使用额外的估计器来显式地建模运动信息并过滤背景噪声。DAAD使用逐块内存来增加内存的专一性。

在大多数现有的工作中，存储模块输出存储项的线性组合，这可能导致不希望的正常异常重建，而且他们没有明确考虑到对应于相同记忆网格的实例可能位于接受野的不同位置。在我们的方法中，我们通过压缩嵌入到单个内存项来缓解这些问题，以确保输出绝对正常。

转换建模 视频帧间的变换是异常检测的关键线索，一些方法使用外部目标检测器或光流估计器隐式或显式地对运动信息建模。在变换估计中，光流估计得到了广泛的研究，其目的是估计连续帧之间逐像素的运动。此外，还将成对图像之间的对应建模应用于二维几何匹配和三维图像配准，以获得图像变形场。STN学习将原始图像本身转化为利益识别算法。RegAD使用特征级仿射配准在不改变嵌入的情况下重新定位特征。然而，两两转换建模只关注模式变化，无法检测静态异常和预训练的变换估计器在不同情况下引入泛化误差。相比之下，我们通过在端到端训练中分离和测量原型记忆的转换来解决这些问题。

3.多样性-可测量异常检测

在本节中，我们首先分析了基于重建的异常检测的目标，并提出了一个可测量的多样性框架来解决现有工作中的权衡问题。然后，我们引入了信息压缩模块和金字塔变形模块(PDM)作为框架的实现。最后，我们解释了训练和推理过程，以及如何将该框架应用于PDM的变体缺陷检测。

3.1. 框架

给定输入x，基于自编码器的方法旨在通过最小化以下重构损失来建模正态数据分布:

对编码器f(·)、解码器g(·)、潜在变量z(在这些情况下指的是离散的存储项)及其约束R1(φ)对应的约束特征映射函数φ(·)。引入跳跃连接和拼接[·，·]，生成多种正态模式:

然而，由于数据分布的多样性，以往的方法不得不面对表示多种正态和检测异常之间的冲突。其内在原因在于分集的编码[·，f(x)]包含了无法精确测量的冗余信息。

在这项工作中，我们提出了一个原则性框架，多样性可测量异常检测(DMAD)，以缓解冲突。基本思想是限制异常在测量和建模剩余部分的多样性时，传递给g(·)的信息。为此，我们在DMAD框架下设计了信息压缩模块φ(·)和多样性感知模块ψ(·):

◦表示聚合操作符，通过合理设计φ(·)、ψ(·)和约束条件，优化重构损失可以提高特征嵌入的紧密度。因此，不同的表示通过φ(·)映射到内存中的紧凑原型，输入x相对于其重构的分集用ψ(·)表示。重构误差可以通过ψ(·)测量的多样性来补偿，ψ(·)是准确异常评分的关键因素。

在满足以下条件(图3)的前提下，该框架可以实现我们的目标:ψ(·)可以学习从原型模式到任何正常输入的所有不同信息，以确保正常样本不会产生高异常分数;2. ψ(·)产生的变形与多样性测度呈正相关;3.用ψ(·)表示的关于x的原型信息需要最小化。在接下来的小节中，我们将解释如何设计模块来满足这些条件。

3.2. 信息压缩模块

我们将VQ-Layer作为信息压缩模块，将给定嵌入f(x)∈RD×H0×W 0的φ(·)作为查询ze = f(x)，内存z∈RD×N来学习。然后，我们通过寻找L2距离最小的记忆项(图4中的“Search”)，将ze量化为单内存特征立方体zq∈RD×H0×W0:

其中，zn为第n个存储项，h∈{1，···，H0}， w∈{1，···，w0}表示zq和ze中的位置相同。分别更新其参数的停止梯度算子SG(·)的压缩损失Lcom由一个超参数β组合:

也允许低信息容量的Skip-connection(图4“Comp.”)进一步提高重建质量，而不会带来过度泛化(即对于约简因子大于16的中间特征使用带有停止梯度算子的convr - layer)。

3.3. 金字塔变形模块

我们将未知异常分为以下三种类型:未见类(如新物体)、全局异常(如意外运动)和局部异常(如奇怪行为和工件损坏)。基于重构结果很容易检测到不可见类，但后两种类型通常会与不同的法线相混淆。为了区分这些异常与正常异常，我们使用重建参考和原始输入之间的可测量变形来表示多样性，因此在法向中发生轻微变形，而在异常中发生剧烈变形。

受STN和DCN的启发，我们引入了金字塔变形模块(Pyramid Deformation Module, PDM)，该模块明确学习分层尺度的变形场，对不同异常类型的运动、行为和缺陷进行建模，如图4a所示。具体来说，在特征提取之后，ψ(·)使用K个头来计算偏移量O = {O1，···，OK}，对应K个粗到细的变形:

其中，P E(·)为位置嵌入算子，h: RC×H×W→r2x {H1×W1，···，HK×WK}为生成偏移向量的变形估计量，U P(·)为将k -head的输出调整为与原始图像相同大小的上采样函数。在我们的实验中，我们设置K = 2, O1用于估计粗变形(例如:对应行人的位置或工件的放置)和用于估计精细变形的O2(例如对应行人的行为或工件的细节)。

考虑到没有位置信息的量化嵌入可能导致重构不准确，我们还引入了解码器g(·)的位置嵌入算子。然后我们将O聚合到重构的参考g(PE(zq))上，得到~ xk(k = 1，…K)，由第K层变形场标定;

其中◦在此实现中具有参考坐标的网格采样函数(“Agg和图4中的“Coord”)。然而，最小化相对于ψ(x)的无约束重构损失可能导致编码器f(·)的退化解。为了解决这个问题，我们通过梯度操作和强度损失添加了平滑损失约束:

3.4. Foreground-background选择

将背景信息存储在内存中会破坏嵌入的紧凑性，并且需要大量的内存项。此外，变形估计不应应用于背景。一些方法使用外部估计器去除背景干扰，但不能保证在不同场景下的泛化，并且不可避免地会引入额外的噪声。利用固定视点视频的强先验性，我们使用可学习模板xbg对背景进行建模，并使用fm(·)生成二进制掩码来指示像素是属于前景还是背景。第k个头的最终重构* xk为:

3.5. 训练与推理

训练阶段 一旦我们得到重构xk，我们可以计算重构损失Lrec为:

其中Dis(·)为样本空间中的距离函数。Eq. 3中的优化目标，我们分别使用Lcom和Ldf实现这两个约束，最后，通过最小化总体损失来进行训练:

推理阶段 在推理阶段，我们使用o和重构损失计算输入样本x的误差映射:

基于局部最大值计算图像级异常评分:

这里⊗是卷积算子，k*是异常映射的卷积核，α是一个权衡参数。即重构损失和变形共同决定异常评分，比传统的基于重构的方法有效得多，如图3所示。

3.6. PDM的变体

修改Pre-PDM框架 DMAD框架与上述提出的ICM和PDM模块一起适用于包括视频监控在内的许多异常检测场景。然而，对于工业缺陷检测，纹理重构可能是有害的(如“Pill”上的斑点)，我们应该重构高级语义特征。由于PDM不能在高维特征空间中工作并且会干扰训练过程，我们提出了PDM的变体Pre-PDM (PPDM)作为解决方案。PPDM在样本空间中工作，应用于输入样本而不是重构样本。(3)式自然修改为:

由于我们不重建原始样本，重建损失不能约束PPDM保持信息多样性。为了防止Eq.(15)中的x◦ψ0(x)从捷径学习，我们提出增加正向变形、反向变形OT的反演，基于循环一致性原则保持外观信息的多样性:

训练阶段 附加循环一致性损失Lcyc和正向向后变形约束L+df为:

因此，我们通过最小化以下损失来训练PPDM异常检测模型:

修改后的DMAD框架(即采用PPDM和反向分布)如图4b所示。

推理阶段 PPDM的结果与原始输入的位置不一致，可能会降低异常定位的性能。为了获得真实位置的异常图，我们使用反向变形进行反采样(图5):

图像级异常评分score+I和像素级异常评分score+P分别计算为:

4. 实验与分析

首先，我们在MNIST上进行了实验来说明我们的方法。然后分别报道了两种版本的DMAD框架在视频异常检测和工业表面缺陷检测中的定性和定量结果。最后进行了消融实验，并对实验结果进行了分析。

4.1. 数据集

监控视频 Ped2、Avenue、ShanghaiTech为固定视频。这些异常包括开车、骑自行车、跑步、扔东西等。这些数据集中经常发生相互遮挡、类异常行为、污染数据和不同场景。

工业图像 MVTec包含15种工业图像，分为5种纹理和10种对象。缺陷包括裂纹、划痕等。正常工件具有不同的位置、角度和纹理。用于检测和定位任务。

4.2. Toy experiment

如图6所示，我们在MNIST数据集上进行了一个实验，设置类似于out-of - distribution (OOD)检测(即在“1,3,5,7,9”上进行训练，并在所有类别上进行测试)。我们的模型为每个数字类别搜索单独的记忆项，将其重构为特定类别的参考，并使用PDM中的变形场对其进行分层调整。当使用可见类和不可见类进行测试时，模型将重构的引用调整为正常输入，但在异常输入上失败。

相比之下，没有多样性感知模块的记忆网络不能保证类内的紧密性和重构的多样性，导致模型错误地获取数据集最优的“平均内存”，导致重构模糊，识别能力较低。采用全通道跳过连接的模型存在学习捷径和异常重建失败的问题，从而削弱了异常识别能力。

4.3. 实现细节

将输入图像的大小调整为256 × 256，并归一化为[−1,1]范围内的值。根据帧pred策略，视频异常检测的历史长度设置为4，图像的历史长度设置为0。在提取主干特征后，PDM和PPDM通过将stride-2卷积层叠加得到不同的头部。我们使用tanh作为输出层的激活函数和裁剪函数，以保证变形值在[−1,1]之间。除特殊说明外，自编码器的架构分别符合PDM和PPDM的MNAD和RD的设置。Eq.(10)中的Dis(·)函数是样本空间重构的MSE损失和Grad损失以及深度特征的COS损失的组合。我们对PDM设(γ1， γ2) =(1,0.25)，对PPDM设(1,1)(γ3在第4.5节讨论)，β = 0.25。在后处理过程中，我们对监控视频使用平均核，对工业图像使用σ = 4的高斯核。我们采用帧差法去除Avenue的静态异常，因为我们的方法检测了可能被标记为正常异常的所有异常。我们使用Eq.(9)计算的掩码由于比例尺变化而产生的异常图进行归一化。

此外，我们为三个视频任务设置了α = 0.2，并根据缺陷是否包含几何变化为缺陷检测设置了额外的选项α = 0.05。模型采用AdamW进行优化，学习率分别为的2e-4和5e-3，采用CosineAnnealingLR策略进行衰减。我们对MNIST、Ped2、Avenue、Shanghai和MVTec分别采用60、60、60、10、400个epoch，批量为8个。

4.4. 主要结果

监控视频 我们将我们的方法与SOTA在视频异常检测方面的工作进行了比较，见表1。即使我们既不使用外部估计器也不去除训练数据中的异常帧，我们的方法也优于比较方法。此外，如果我们检测摄像机抖动的全局偏移，将会有额外的0.1%的增益。

定性结果如图7所示。我们发现:(b)中的异常是过度重构的;(c)中的法线没有很好地重建;(d)极大地改善了正常重建，对异常的抑制能力略弱。

工业图像 MVTec异常检测结果如表2所示，定位结果如表3所示。利用PPDM的形变，我们的方法在检测和定位任务上都优于SOTA方法，而无需从训练数据中记忆大量的嵌入。

4.5. 消融实验

如表4所示，不带PDM的单输出内存模块严重抑制了各种正常模式，而不带内存的单独PDM提供了与以前的SOTA相当的性能提升，因为模块“Comp.”代替了信息压缩模块。多尺度变形场的数量对性能也有一定的影响。我们建议“K”至少应该使控制网格尺度覆盖基本元素的大小(例如行人的肢体)。此外，前景背景选择模块进一步提高了记忆嵌入的紧凑性。此外，如果缺少PDM约束，则会传递异常信息，导致学习捷径。特别是，循环一致性约束Lcyc也是PPDM避免退化解(- 1.7%)的必要部分，因为通过消除所有必要信息可以使特征重构误差最小化。

如表5所示，本文方法对Eq.(19)中的超参数γ3具有鲁棒性。在不形成退化解的情况下，弱化约束使模型更容易从较少细节的参考中恢复图像，并通过将异常转化为正常模式来更准确地感知异常的位置，从而有利于定位任务。相反，强化约束可以缓解学习的捷径，通过保留更多的异常细节来提高图像水平。

4.6. 讨论

污染数据假设 假设训练数据只包含完全正常的数据是不现实的，因为自然数据清理的工作量相当大，甚至与数据注释的成本相同。我们将训练数据与Ped2中的异常事件混合，模拟污染数据，发现MNAD的性能下降为- 3.7%，而我们的性能下降为- 1.8%。DMAD受影响较小的原因可能是PDM可以对混合异常和类异常正常样本的残差异常表示进行编码和传输，从而严格保持主编码器的表示紧凑性，对异常样本的泛化能力较低。

两个DMAD实现 如前所述，我们的DMAD框架分为两个版本，分别使用PDM和PPDM实现，对应不同的检测目标。如图8所示，PDM从记忆嵌入中学习到可测量的量化误差(由ICM引起)到不同的模式，这增强了ICM保持类内紧密性的潜力，而不会产生不可测量的重构损失。与PDM不同，PPDM部分负责信息压缩，即PPDM通过使用从输入到参考的反向变形过程来消除不同的外观。

5. 结论

本文提出了一种基于重构多样性可测量的异常检测框架，该框架在提高异常识别能力和重构多样性的同时，提高了异常识别能力。提出将金字塔变形模块与信息压缩模块结合使用。PDM在不依赖外部估计量的情况下，明确地对从参考到原始输入的多尺度变换域进行建模。因此，可以重建各种正态分布，准确测量异常严重程度。对视频和图像基准的实证研究表明了我们工作的有效性和适用性。在未来的研究中，我们将进一步探索多样性感知模型用于异常检测。