↑ 点击蓝字关注极市平台

作者丨rumor@知乎

来源丨https://zhuanlan.zhihu.com/p/334732028

编辑丨极市平台

极市导读

本文从对比学习的概念出发，收集了五个2020年的关于对比学习的经典研究，详细介绍了每个工作的模型及思路过程，帮助大家快速掌握对比学习的原理和发展的脉络。 >>12月10日（周四）极市直播｜汤凯华：利用因果分析解决通用的长尾分布问题

对比学习的概念很早就有了，但真正成为热门方向是在2020年的2月份，Hinton组的Ting Chen提出了SimCLR，用该框架训练出的表示以7%的提升刷爆了之前的SOTA，甚至接近有监督模型的效果。在SimCLR推出后，各路大佬们又陆续提出了不少有意义的工作，本文将对2020年的一些对比学习经典研究进行总结，方便大家快速掌握这个方向的原理和发展脉络。

首先再简要说下对比学习的基本原理，先从无监督表示学习讲起。表示学习的目标是为输入学习一个表示，最好的情况就是知道就能知道。这就引出了无监督表示学习的第一种做法：生成式自监督学习。比如还原句子中被mask的字，或者还原图像中被mask的像素。但这种方式的前提需要假设被mask的元素是相互独立的，不符合真实情况。另一方面，研究者们也质疑如此细粒度的还原是否真正必要。

举个例子，假如有人让你凭空画一张一美元，你可能只画成这样[1]：

而如果给你一张美元照着临摹，可能还能画好看点，比如这样：

所以说我们记住的事物特征，不一定是像素级别的，而是更高维度的。更具体来说，比如用编码去做分类任务，我们不需要知道每个数据的细节，只要抓住每个类别的主要特征，自然就能把他们分开了：

不重构数据，那如何衡量表示的好坏呢？这时也可以用互信息，代表我们知道了之后，的信息量减少了多少。如果对最大化互信息的目标进行推导[2]，就会得到对比学习的loss（也称InfoNCE），其核心是通过计算样本表示间的距离，拉近正样本，拉远负样本。也就是说，当我们能够区分该样本的正负例时，得到的表示就够用了。

具体的做法是，输入N个图片，用不同的数据增强方法为每个图片生成两个view，分别对它们编码得到y和y'。我们对上下两批表示两两计算cosine，得到NxN的矩阵，每一行的对角线位置代表y和y'的相似度，其余代表y和N-1个负例的相似度。

对每一行做softmax分类，采用交叉熵损失作为loss，就得到对比学习的损失了：

其中是可调节的系数。

对比学习的原理很简单，比较粗暴的优化方向就是增加view难度、增加更多负例、提升encoder表现等。下面就让我们看看大佬们在这一年里是如何花式优化的。

MoCo（CVPR20）

既然对比是在正负例之间进行的，那负例越多，这个任务就越难，于是一个优化方向就是增加负例。

纯粹的增大batch size是不行的，总会受到GPU内存限制。一个可行的办法就是增加memory bank，把之前编码好的样本存储起来，计算loss的时候一起作为负例：

但这样有个问题是存储好的编码都是之前的编码器计算的，而的编码器一直在更新，会有两侧不一致的情况，影响目标优化。一个可行方法之一就是用最新的左侧encoder更新编码再放入memory bank，但这依然避免不了memory bank中表示不一致的情况，实验效果很差。还有研究用动量去更新样本表示，但这样必须存储所有样本，消耗过多内存。

所以何凯明大佬在2019年底推出了MoCo（Momentum Contrast）模型[3]，延续memory bank的思想，使用动量的方式更新encoder参数，解决新旧候选样本编码不一致的问题：

对于每个batch x：

随机增强出、两种view
分别用、对输入进行编码得到归一化的 q 和 k，并去掉 k 的梯度更新
将 q 和 k 一一对应相乘得到正例的cosine（Nx1），再将 q 和队列中存储的K个负样本相乘（NxK），拼接起来的到 Nx(1+K) 大小的矩阵，这时第一个元素就是正例，直接计算交叉熵损失，更新的参数
动量更新的参数：
将 k 加入队列，把队首的旧编码出队，负例最多时有65536个

这样每次入队的新编码都是上一步更新后的编码器输出，以很低的速度慢慢迭代，与旧编码尽量保持一致。实验发现，m=0.999时比m=0.9好上很多。最终在ImageNet的实验效果也远超前人，成为当时的SOTA：

SimCLR（ICML20）

SimCLR是Hinton组的Chen Ting在20年2月提出的工作，直接比MoCo高出了7个点，并直逼监督模型的结果：

框架结构还是采用双塔：

主要做了以下改动：

探究了不同的数据增强组合方式，选取了最优的
在encoder之后增加了一个非线性映射。研究发现encoder编码后的会保留和数据增强变换相关的信息，而非线性层的作用就是去掉这些信息，让表示回归数据的本质。注意非线性层只在无监督训练时用，在迁移到其他任务时不使用
计算loss时多加了负例。以前都是拿右侧数据的N-1个作为负例，SimCLR将左侧的N-1个也加入了进来，总计2(N-1)个负例。另外SImCLR不采用memory bank，而是用更大的batch size，最多的时候bsz为8192，有16382个负例

MoCo v2

SimCLR推出后一个月，何凯明和Chen Xinlei同学对MoCo进行了一些小改动：

改进了数据增强方法
训练时在encoder的表示上增加了相同的非线性层
为了对比，学习率采用SimCLR的cosine衰减

经过改动后，以更小的batch size就超过了SimCLR的表现：

SimCLR v2（NIPS20）

在2020年中，Hinton组的Chen Ting同学又提出了SimCLR v2[4]，主要做了以下改动：

采用更深但维度略小的encoder，从 ResNet-50 (4×) 改到了 ResNet-152 (3×+SK)，在1%的监督数据下提升了29个点
采用更深的3层MLP，并在迁移到下游任务时保留第一层（以前是完全舍弃），在1%的监督数据下提升了14个点
参考了MoCo使用memory，但由于batch已经足够大了，只有1%左右的提升

最终模型比之前的SOTA好了不少：

SwAV（NIPS20）

对比学习需要很多负例进行比较，既耗时又耗内存，于是FAIR联合Inria也推出了一个新的方法SwAV。作者提出了一个新的想法：对各类样本进行聚类，然后去区分每类的类簇。模型结构如下：

具体的做法是，先用K个点表示聚类中心（prototypes），给定一个batch的编码，将其通过映射到一组新的向量。这里假设向量都是d维的[5]，那C的维度就是 dxK，Z的维度是 dxB，Q的维度则是KxB，每个元素相当于第k个聚类中心与第b个样本的相似度，理想情况下，样本与自己的类簇中心相似度为1，与其他的为0，其实就是一个one-hot label。不过作者发现soft label效果会好一些。这样每个样本又获得了一个新的表示（Codes）。

有了和之后，理论上同一张图片不同view所产生的和也可以相互预测，作者便定义了新的loss：

其中

同时SwAV也提出了一种新的数据增强方法，将不同分辨率的view进行mix。最终两种方法的结合带来了4.2个点的提升：

BYOL

上文讲的方法来回都逃不过“对比”这个范式，而DeepMind提出的BYOL则给了我们一个不同视角。

在表示学习中，我们现在采用的框架本质是通过一个view的表示去预测相同图像其他view，能预测对说明抓住了图像的本质特征。但在做这样的预测时会有坍缩（collapse）的风险，意思是全都变成一个表示，那也可以做到预测自己。对比学习为了解决这个问题，将表示预测问题转换为了正负例判别问题，这样就迫使模型的输出是多样的，避免坍缩。

于是BYOL的作者想：如何不用负例，也能学到好的表示呢？如果共用encoder，用MSE作为损失，缩小相同图像不同view的距离，肯定会坍缩。而作者发现如果把其中一个encoder变成随机初始化的固定下来（stop gradient），就能达到18.8%的准确率。为了得到更好的encoder，作者参考动量的方法对其中一个encoder做了改进：

这里我们按照论文，称上半部分为online（更新梯度），下半部分为target（不更新梯度）。BYOL的优化目的是用online表示预测target表示，采用MSE作为损失函数。Online梯度回传后，使用滑动平均对targe的encoder和MLP参数进行更新。在预测阶段只使用。

虽然BYOL没有显示地使用对比学习loss，但一篇博主在实验[6]中发现BYOL依靠的还是“对比”。他们在复现BYOL的时候直接基于了MoCo的代码，结果发现效果还没有随机的好，原来是因为MLP中没有加BN。如果深究BN的作用，就会发现它重新调整了输出的分布，避免坍缩，同时BN也在隐式地进行对比，去除batch内样本相同的部分，保留不同的特征。

同时，在不依赖负样本后，BYOL对于数据增强方法的选择更加鲁棒，下面是它的效果：

SimSiam

延续BYOL的思想，Chen Xinlei与何凯明大佬又对孪生网络进行了研究，发现stop-gradient是避免坍缩的关键，于是提出了SimSiam。

SimSiam的结构非常简单：

左侧的编码器生成，经过MLP后输出
右侧的编码器生成
计算与的cosine相似度
左右调换，再计算与的cosine相似度
最大化3、4两个步骤的和，且右侧永远不传播梯度

训练步骤虽然简洁，但为什么work却有很多学问。简单的解释是，对于整体目标的优化可以看作一个EM过程，左右两边交替更新，所以在更新左侧encoder时可以将右侧看成常数。更多的细节可以参考Andy的详解。

最终SimSiam的效果超过了众多前辈，但仍比BYOL差3个点：

同时他们提到，孪生网络自带建模不变性（invariance）的归纳偏置（inductive bias）：

two observations of the same concept should produce the same outputs

这个发现可以帮我们理解为什么孪生网络效果很好，表示学习就是要建模数据中的不变性。

其他细节

1. 数据增强方法

SimCLR中对数据增强方法进行了研究，得到了两个结论：

不同的数据增强方式组合起来会更好，单一增强的任务太简单
Crop和Color组合的方式最好，因为大多数图像中的颜色是比较一致的，即使裁剪也会容易辨认，如果去掉颜色会增加任务难度

2. BatchNorm导致的信息泄露

在分布式训练中，BN都是分别在各个设备上做的。而对比学习的正例对在一个机器上计算，会出现信息泄露。个人认为，在BN去除batch内共同特征时，很可能被归一化到相似的分布，降低任务难度。

MoCo的解决办法是把一边的样本重新shuffle再并行，另一边顺序不变，这样batch的统计量就不同了；SimCLR的解法是计算一个全局的BN值。

3. MLP

在SimCLR以后的工作中都使用了MLP，SimSiam也对它的作用进行了探究：

可以看到不使用MLP基本没效果可言。作者通过实验发现：MLP可能承担了估计整体期望的功能。这同SimCLR最初增加MLP时的发现是一致的，核心思想还是过滤表示中的无效特征，得到本质，服务于“对比”任务。

总结

对比学习在2020年异常火爆，CV领域的高质量研究层出不穷，很多都超过了有监督学习的表现。这次我们只介绍了无监督对比学习，实际上它在有监督任务上也有应用，同时NLP、Graph领域也都看得到它的身影。期待CV与NLP领域相互借鉴，碰撞出更好的工作。

参考资料

[1] Contrastive Self-Supervised Learning: https://ankeshanand.com/blog/2020/01/26/contrative-self-supervised-learning.html

[2] 深度学习的互信息：无监督提取特: https://kexue.fm/archives/6024

[3] Momentum Contrast for Unsupervised Visual Representation Learning: https://arxiv.org/pdf/1911.05722.pdf

[4] Big Self-Supervised Models are Strong Semi-Supervised Learners: https://arxiv.org/pdf/2006.10029.pdf

[5] representation learning与clustering的结合(3): SwAV: https://zhuanlan.zhihu.com/p/259975814

[6] Understanding self-supervised and contrastive learning with BYOL: https://untitled-ai.github.io/understanding-self-supervised-contrastive-learning.html

推荐阅读

ReID任务大幅领先，港中文开源自步对比学习框架，充分挖掘无监督学习样本｜NeurIPS 2020
ICLR 2020 | 精度逼近有监督，港中文提出无监督学习框架：同步平均教学
图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

添加极市小助手微信（ID : cvmart2），备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳），即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群：每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

一文梳理无监督对比学习（MoCo/SimCLR/SwAV/BYOL/SimSiam）