点击下方卡片，关注「集智书童」公众号

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「集智书童-知识星球」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

如今，神经网络被广泛应用于解决各种问题。然而，尽管它们具有有效性，但通常被认为是一种黑箱，能够提供答案而无需解释其决策，这引发了众多伦理和法律问题。

幸运的是，可解释性领域有助于用户理解这些结果。

这一机器学习方面允许用户了解模型的决策过程并验证其结果的相关性。

在这篇文章中，作者关注的是一个名为“时间分布”的卷积RNN所执行的学习过程，该过程用于从视频数据中进行异常检测。

1 Introduction

深度神经网络在解决复杂问题，特别是在实时视频异常检测方面，发挥着关键作用。然而，它们的不可解释性使得它们成为“黑箱”，难以理解，这不仅带来了技术上的挑战，也带来了伦理和法律上的挑战。这种不可解释性在需要检测敏感领域的异常情况时尤为突出，如斗殴、枪击或车祸等。

在此背景下，欧盟在2019年5月实施了《通用数据保护条例》（GDPR），其中规定了在决策中使用算法的严格规定。GDPR第22-1条规定，如果自动化处理对个人具有重大影响，则不能仅依据自动化处理作出决定。这使得开发能够解释和帮助理解异常检测模型所做出决定的解释性技术变得尤为重要，特别是要确保其符合法律和伦理规范。

在本研究中，作者实现了一个卷积RNN模型来检测视频中的异常。作者将分析重点放在了关键安全行动上，如打斗或枪响。在解释性方面，与作者RNN生成的特征相比，卷积网络学习的特征更容易解释，因为它们可以可视化，而RNN生成的特征则不行。在利用卷积网络进行图像处理的项目中，常见的方法是可视化模型提取的特征，以评估其学习的相关性。然而，视频数据处理使得这种方法变得复杂。考虑到视频本质上是一个图像序列，因此有理由质疑是否可以将同样的可视化技术应用到包含“时间分布”卷积的模型中。在异常检测的背景下，理解模型关注的区域至关重要，因此这个问题尤为重要。

为了应对这个问题，作者首先回顾了神经网络中可用的主要可视化技术，尤其是在图像和视频分析的背景下。接下来，作者详细介绍了作者采用的方法，将这些技术应用到作者的“时间分布式”卷积RNN模型中。最后，作者呈现了作者的结果，并讨论了它们的含义，然后得出结论。

2 Related work

在2019年，Christoph Molnar 出版了一本书，题为《制作黑箱模型可解释的指南》，该书强调了各种可解释性和可视化技术[8]。一方面，一些技术如2016年8月9日由Marco Tulio Ribeiro，Sameer Singh和Carlos Guestrin提出的LIME（局部可解释模型-不可知），或者2017年11月由Scott M. Lundberg和Su-In Lee提出的SHAP（SHapley 附加解释）[7]与所使用的模型无关。另一方面，一些技术特定于某些模型，例如卷积网络，其中可以找到可视化技术，如卷积滤波器[5]，显著性图[14, 15]，激活图等。

许多库存在以帮助用户可视化这些特征。在2017年，Kotikalapud Raghavendra提出了keras-vis [6]，这是一个公开库，允许用户可视化每个层的卷积滤波器、在训练过程中的演变以及激活图。后来，在2020年，Philippe Remy开发了另一个库，称为kerat [11]，以执行类似的处理。此外，在2020年，Gotkowski、Karol等人提出了另一个库，允许用户可视化2D和3D注意力图 [4]。如今，由Francois Chollet在2015年开发的keras库中也包括了一些这些可视化技术。

3 Approach

作者的模型是基于Keras库开发的。在卷积部分，作者选择了VGG19，而在顺序部分，作者使用了GRU。为了给作者的数据增加时间维度，作者将VGG19封装在一个“时间分布”层中。这个层的作用是对数据序列中的每个元素应用相同的处理——在作者的情况下，对每个图像应用VGG19，以便在将信息传递给GRU进行顺序分析之前，融合时间维度。作者的架构图见图1。

在本研究中，作者选择关注诸如Grad-CAM、显著性图、特征图和过滤器可视化的可解释性技术。这些方法的使用使作者能够更直接、立即地理解模型的内部机制，从而有助于结果的解释。此外，通过避免外部依赖，作者确保了分析的一致性和可复制性。不幸的是，作者观察到专门为卷积神经网络（CNNs）设计的可视化库并不适合作者这种架构。

首先，作者模型的问题出在结构上。在标准的网络中，使用2D或3D卷积层时，这些层是直接连接在一起的。然而，在作者的架构中，卷积被封装在一个“时间分布式”层中，这意味着这个层内存在一个子模型，如图2所示。这个子模型是间接连接到其他层的，使得通过网络传递信息和梯度变得更加复杂。

第二问题涉及添加时间维度。与处理图像或3D目标的不同，作者的模型处理视频。这意味着对于单个输出可视化，作者需要多个输入图像，这些图像必须代表整个输入序列。

因此，作者的目标是针对每张图像创建一个可视化表示，以便更好地理解子模型的处理过程，同时遵守GDPR的要求。作者旨在可视化模型在预测异常时关注的区域。为此，可以使用显著性图和激活图。显著性图突出显示图像中的感兴趣像素，而激活图则提供了图像中不同区域对最终预测的贡献的视觉表示。

显著图（Saliency maps）是通过计算输入数据与激活函数梯度来生成的，而激活图（activation maps）是通过计算输入数据与希望可视化的层输出之间的激活函数梯度来获得的。为了创建这些可视化，需要通过网络传播信息以获得最终的激活值。

很遗憾，“时间分布式”层的使用使得子模型与主模型的传播变得复杂。此外，提取子模型也会切断与后续层的连接。

生成显著图需要计算序列的梯度，而不是单个图像的梯度，这导致了一系列与序列长度对应的梯度。然后将这些梯度显示出来，为每个图像生成一个显著图。

对于激活图，作者发现一种解决方案是利用“时间分布”层的输出。如前所述，该层通过对序列中的每个图像应用相同的处理，为数据添加时间因素。该层的输出可以被解释为一系列结果，每个图像对应一个结果。计算出的梯度具有与输出相同的尺寸，这使得每个梯度可以应用于其相应的输出，并生成一个激活图，然后将其投影到相关图像上。值得注意的是，在这种架构中，只能为子模型的输出层生成激活图。

4 Experimentation:

在本节中，作者将展示之前解释的每种方法的性能，以及它们的优缺点。对于非专家，如安全官员，依赖激活图而不是显著图要实际得多，如图3和4所示。

通过观察图5中呈现的激活图，作者可以发现，即使图片连续，作者的模型也不会关注到同一区域。这要归因于作者模型中缺乏注意力层。

为了方便解释作者的序列，作者使用OpenCV提取了这些激活图的轮廓。图6所示的轮廓可视化使作者注意到一些难以通过激活图感知的低激活区域。然而，它也存在一些缺点；例如，轮廓检测并不十分精确，当周围有较大激活区域时，可能会包含其他轮廓。此外，目前这种新的可视化方式无法让作者知道激活的强度。

图像7完美地说明了这种技术的优缺点。在图像1中，作者可以看到枪被感知为低激活区域，这在激活图上很难看到，但通过轮廓变得非常清晰。作者还可以观察到一个主要的激活区域被一个次要的激活区域包围，该激活区域位于图像的左侧。图像2显示一个人击打了另一个人。通过激活图，它似乎表明模型很好地感知了动作，但错误地将场景 Token 为“正常”。然而，通过观察轮廓，作者 Aware 到它完全错过了动作。

如图8、9和10所示的激活图也使作者能够观察到其他层（RNN、Dense、Dropout等）对通过卷积神经网络学习的特征的影响。这种影响是由于这种模型中的反向传播造成的，这使作者能够更好地定义这些层参数。

这些可视化也允许作者检查与“正常”类相关的特征。在有监督学习中，这个类代表没有异常，涵盖了许多动作，如工作、行走或锻炼等。值得注意的是，这个类别的运动通常较慢，与异常类（由突然、快速的移动 Token ）相反。在没有异常指标的情况下，人类可能会默认将正常类分配给没有异常，但作者的模型并不遵循这种逻辑。为了预测正常类，它必须检测代表该类的特定特征。通过可视化属于这个类的视频示例，作者可以看到正常类是正常类的良好例子。

4 Discussion

在本文中，作者开发了一种新的异常类别，它们不能很好地代表正常类别。作者通过激活映射11、显著性映射12或特征映射13，发现作者的模型主要依赖于屏幕上存在的个体的姿势来预测这个类别。

结论

通过本文，作者证明了将特定于卷积神经网络（CNNs）的某些可视化技术适应于卷积循环网络（convRNNs）的可能性，在“时间分布式”层内集成卷积，同时符合GDPR的要求。

然而，还有几个领域有待探索：

轮廓可视化可以通过纳入激活区域强度表示进行改进。

另一种有前途的方法是利用目标检测模型精确地定位异常，这可以促进实时可视化，这对需要时间关键因素的应用程序具有重大优势。

虽然视觉 Transformer 允许使用注意力图进行可视化，但这个过程仍然慢且计算成本高，因此不适合需要立即反馈的应用程序。发展专门针对视频数据的可视化技术，可以极大地丰富作者的分析能力。

参考文献

[0]. From CNN to ConvRNN: Adapting Visualization Techniques for Time-Series Anomaly Detection.

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

点击下方“阅读原文”，

了解更多AI学习路上的「武功秘籍」

从CNN 到 ConVRNN: 时间序列异常检测的可视化技术 ！