VLE视觉-语言多模态预训练模型-轻识

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力有更强要求的视觉常识推理（VCR）任务中，VLE取得了公开模型中的最佳效果。

VLE模型采用双流结构，与METER模型结构类似，由两个单模态编码器（图像编码器和文本编码器）和一个跨模态融合模块构成。VLE与METER的结构上的差异在于：

VLE使用图文对数据进行预训练。在预训练阶段，VLE采用了四个预训练任务：

MLM (Masked Language Modeling)：掩码预测任务。给定图文对，随机遮掩文本中的部分单词，训练模型还原遮掩的文本。
ITM (Image-Text Matching)：图文匹配预测任务。给定图文对，训练模型判断图像和文本是否匹配。
MPC (Masked Patch-box Classification)：遮掩Patch分类任务，给定图文对，并遮掩掉图片中包含具体对象的patch，训练模型预测被遮掩的对象种类。
PBC (Patch-box classification)：Patch分类任务。给定图文对，预测图片中的哪些patch与文本描述相关。

VLE在14M的英文图文对数据上进行了25000步的预训练，batch大小为2048。下图展示了VLE的模型结构和部分预训练任务（MLM、ITM和MPC）。

遵循标准做法，使用VQA的训练集（training set）和验证集（validation set）训练模型，在test-dev集上进行验证。采用模型的融合层的pooler的输出进行分类任务的训练。

将VCR格式化为一个类似于RACE的选择题任务，并对于每张图像中的对象，将覆盖该对象的patch的表示的平均池化值添加到融合模块之前的图像特征序列中。还为图像和文本中的对象添加额外的token_type_ids，以注入不同模态之间的对齐信息，提升模型的对齐性能。

模型下载

本次发布了VLE-base和VLE-large两个版本的预训练模型，模型权重为PyTorch格式，可以选择手动从🤗 transformers模型库下载权重和配置文件，或者在代码中使用 from_pretrained(model_name) 以自动加载模型。详细方法参加模型使用。

模型	文本编码器	图像编码器	参数量*	MODEL_NAME	链接
VLE-base	DeBERTa-v3-base	CLIP-ViT-base-patch16	378M	hfl/vle-base	link
VLE-large	DeBERTa-v3-large	CLIP-ViT-large-patch14	930M	hfl/vle-large	link

* : 仅计算encoder和emebddings的参数。特定任务的预测层的参数量未计入。

模型	文本编码器	图像编码器	MODEL_NAME	链接
VLE-base-for-VQA	DeBERTa-v3-base	CLIP-ViT-base-patch16	hfl/vle-base-for-vqa	link
VLE-large-for-VQA	DeBERTa-v3-large	CLIP-ViT-large-patch14	hfl/vle-large-for-vqa	link
VLE-base-for-VCR-q2a	DeBERTa-v3-base	CLIP-ViT-base-patch16	hfl/vle-base-for-vcr-q2a	link
VLE-large-for-VCR-q2a	DeBERTa-v3-large	CLIP-ViT-large-patch14	hfl/vle-large-for-vcr-q2a	link
VLE-base-for-VCR-qa2r	DeBERTa-v3-base	CLIP-ViT-base-patch16	hfl/vle-base-for-vcr-qa2r	link
VLE-large-for-VCR-qa2r	DeBERTa-v3-large	CLIP-ViT-large-patch14	hfl/vle-large-for-vcr-qa2r	link

在下表中比较了VLE、METER以及其他多模态模型的参数量、预训练数据和下游任务效果。其中VQA展示的的是test-dev集上的效果；VCR展示的是dev集上的效果。

模型	VQA	VCR (QA2R)	VCR (Q2A)	参数量	预训练数据量*
CoCa	82.3	-	-	2.1 B	未知
BeiT-3	84.2	-	-	1.9 B	21M(I-T) + 14M(I) + 160G(T)
OFA	82.0	-	-	930M	20M(I-T) + 39M(I) + 140G(T)
BLIP	78.3	-	-	385M	~130M(I-T)
METER-base	77.7 (76.8†‡)	79.8§	77.6§	345M	9M(I-T)
METER-Huge	80.3	-	-	878M	20M(I-T)
VLE-base	77.6‡	83.7§	79.9§	378M	15M(I-T)
VLE-large	79.3‡	87.5§	84.3§	930M	15M(I-T)

† : 复现效果

‡ : 精调参数: lr=7e-6, batch_size={256, 512}, num_epochs=10

§ : 精调参数: lr=1e-5, batch_size=128, num_epochs=5

* : I-T: 图文对. I: 图像. T: 文本.

观察上表可以发现：