CVPR 2022丨无监督预训练下的视频场景分割-轻识

点击下方卡片，关注“新机器视觉”公众号

重磅干货，第一时间送达

前言对于视频场景分割任务，如何更好地在无标注长视频上进行自监督预训练？如何运用视频特征对该任务进行建模？腾讯优图实验室、深圳大学、KAUST等机构的研究成果入选今年CVPR 2022会议。

来源：腾讯优图实验室

编辑：CV技术指南

近年来，基于自监督（Self Supervised Learning ，SSL）方法在各计算机视觉任务上表现出强大的学习能力和泛化性，并随着如MoCo、SimCLR、SwAV、BYOL、SimSiam、MAE等SSL框架的诞生，使得基于的SSL方法受到越来越多的关注。

一般而言，大多数SSL方法在图像分类、视频分类、目标检测等任务上进行性能评估，并且其预训练范式并不适合视频场景分割（Video Scene Segmentation，VSS）任务，本工作主要讨论和探究各SSL对比学习范式和特征质量评估方案在VSS任务下的效果。主要研究动机如下：

在大量未标注的长视频数据上，对特征提取器进行预训练，使得模型能捕捉和建模长视频中的时序依赖关系和内容主题相关性。

常见的SSL训练范式在视频场景分割下游任务上泛化能力不够理想。

在先前的视频场景分割相关工作中，下游监督学习模型存在一定的归纳偏置，导致其对一些超参数较为敏感，以及较低的训练和推理效率。

在本文介绍的《Scene Consistency Representation Learning for Video Scene Segmentation》工作中，提出了一种基于场景一致性自监督表征学习方案（SCRL），使得相似场景的镜头表征在特征空间中分布得更为紧凑，如图1(c)所示；

同时采用归纳偏置更低的时序建模方法对特征质量进行评估，并对视频场景分割任务进行建模。该方案在VSS任务上达到了SOTA水平。

图1 SCRL算法动机示意图

论文：

https://arxiv.org/abs/2205.05487

代码：

https://github.com/TencentYoutuResearch/SceneSegmentation-SCRL

任务背景介绍

任务介绍

视频场景分割（Video Scene Segmentation，VSS）作为视频理解中的一个子任务，其主要目标是以一个长段视频按照场景内容的不同为切分线索，以镜头维度将长视频切分成若干独立子视频，切分过程又称作场景边界检测（Scene Boundary Detection），如图2所示。

图2 VSS任务介绍

背景知识

视频帧，镜头与场景间的关系

一组镜头（Shot）包含若干由同一个相机不间断拍摄到的连续帧，镜头切分结果可以通过成熟的算法获得，如：TransNet；

一个场景（Scene）由连续的镜头组成，一般描述相同的故事，具有更高级别的抽象语义。VSS任务则是在Scene级别对长视频在时域上进行分段，可以理解为按照不同故事线对长视频进行切分。

图3 帧、镜头（Shot）和场景（Scene）

在视频中的层次关系

方案介绍

任务Pipeline介绍

本框架总览如图4所示，该算法框架主要包含两个阶段：

镜头表征学习阶段；

视频场景分割阶段。

在镜头表征学习阶段中，与常见的SSL框架一致，通过复制特征提取器M得到由键值编码器（Key Encoder）和查询编码器（Query Encoder）组成的双路训练分支。

对于输入镜头序列而言，先经过Aug_K, Aug_Q数据增强方法得到增强后的输入镜头特征序列，随后在查询编码器（Query Encoder）产生的特征中，对每个查询镜头特征q筛选出对应正样本特征，得到代表样本i所对应的正样本下标的索引映射函数MAP(i)，再从键值编码器（Key Encoder）产生的特征中根据MAP(i)选择出实际用于预训练的正样本对，如公式所示：

因此，不同的正样本选择策略可以转化成不同的映射函数。最后通过使用InfoNCE对比损失函数对整个预训练过程进行优化（若在无负样本训练框架中，则只使用余弦相似度函数进行优化）。

预训练完成后，查询编码器则作为后续监督学习阶段使用的镜头特征提取器。

图4 算法整体Pipeline示意图

在视频场景分割阶段，使用参数固定的查询编码器对输入的视频镜头序列提取特征，再将特征输入到设计好的基于MLP/Bi-LSTM的视频场景分割模型中完成VSS任务建模。

正样本选择范式

本文分析和讨论了四种自监督训练范式，如图5所示，包含了图片分类、视频分类和视频的时序分割的预训练范式。

图5 4种正样本选择范式

对于图片级别的预训练任务而言，通常选择原样本的两个不同的增强视图作为正样本对，这里统称为Self-Augmented方法，此时映射函数可以表示为恒等映射：

对于视频分类而言，对于查询样本，通常随机采样选择邻域范围为n的片段作为正样本，称为Random方法，映射函数表示为：

类似的，发表于CVPR2021的ShotCoL算法选择邻域范围为m的最近邻片段作为正样本，称作Nearest Neighbor（NN）正样本选择策略，映射函数可以表示为：

由于长视频场景通常交错排布和具有较高的冗余性，因此本工作使用聚类中心作为正样本，并对正样本进行线性插值，称为Scene Consistency（SC）方法，映射函数表示为：

数据增强

对于大多SSL方法来说，数据增强是至关重要的，本框架使用的数据增强主要分为两种，一是对输入镜头序列进行打乱，称作场景无关的镜头序列打乱（Scene Agnostic Clip-Shuffling），二是对输入的单个镜头进行非对称的图像增强。在输入镜头打乱方法中，为了提升一个批次中的镜头和场景的丰富度，本文提出用固定长度为ρ的连续镜头序列为独立单位，对来自不同视频的镜头序列进行打乱，如图6所示：