I-JEPA基于图像的联合嵌入预测架构
I-JEPA 是一种自我监督学习的方法。在高层次上,I-JEPA 从同一图像的其他部分的表征中预测图像的一部分的表征。值得注意的是,这种方法学习语义图像特征:
- 不依赖于预先指定的不变性来进行手工制作的数据转换,这往往会偏向于特定的下游任务,
- 并且没有让模型填充 pixel-level 细节,这往往会导致学习较少语义意义的表征。
与具有像素解码器的生成方法相反,I-JEPA 具有在潜在空间中进行预测的预测器。I-JEPA 中的预测器可以看作是一个原始的(和受限的)世界模型,它能够从部分可观察的上下文中模拟静态图像中的空间不确定性。这个世界模型是语义的,因为它预测图像中不可见区域的高级信息,而不是 pixel-level 细节。
项目团队训练了一个随机解码器,它将 I-JEPA 预测的表示映射回像素空间中作为草图。该模型正确捕捉位置不确定性并生成具有正确姿势的高级对象部分(例如,狗的头、狼的前腿)。
I-JEPA 预训练在计算上也很高效。它不涉及与应用更多计算密集型数据扩充来生成多个视图相关的任何开销。目标编码器只需要处理图像的一个视图,上下文编码器只需要处理上下文块。根据经验,I-JEPA 在不使用手工视图增强的情况下学习强大的现成语义表示。
预训练模型
arch. | patch size | resolution | epochs | data | download | ||
---|---|---|---|---|---|---|---|
ViT-H | 14x14 | 224x224 | 300 | ImageNet-1K | full checkpoint | logs | configs |
ViT-H | 16x16 | 448x448 | 300 | ImageNet-1K | full checkpoint | logs | configs |
ViT-H | 14x14 | 224x224 | 66 | ImageNet-22K | full checkpoint | logs | configs |
ViT-g | 16x16 | 224x224 | 44 | ImageNet-22K | full checkpoint | logs | configs |
评论