【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

数据派THU

共 1580字,需浏览 4分钟

 ·

2024-10-26 17:00

   
来源:专知

本文约1000字,建议阅读5分钟

我们提出了双原型演化 (Dual Prototype Evolving, DPE),这是一种新的VLMs测试时自适应方法,可以有效地从多模态中累积任务特定知识。


测试时自适应 (Test-time adaptation) 使模型能够在无标签测试样本下对多样化数据进行泛化,在现实应用中具有重要价值。近期,研究人员将这种设置应用于高级预训练视觉-语言模型 (Vision-Language Models, VLMs),提出了如测试时提示调优(test-time prompt tuning)等方法,以进一步扩展其实际适用性。然而,这些方法通常仅关注单模态的VLMs适应性,且在处理更多样本时,未能累积任务特定知识。为了解决这一问题,我们提出了双原型演化 (Dual Prototype Evolving, DPE),这是一种新的VLMs测试时自适应方法,可以有效地从多模态中累积任务特定知识。具体来说,我们创建并不断演化两组原型——文本和视觉原型——以在测试时逐步捕捉目标类别的更准确的多模态表示。此外,为了促进多模态表示的一致性,我们为每个测试样本引入并优化可学习残差,以对齐来自不同模态的原型。在15个基准数据集上的广泛实验结果表明,我们提出的DPE方法不仅在性能上持续优于当前最先进的方法,同时在计算效率上也具备竞争力。代码可在 https://github.com/zhangce01/DPE-CLIP 获取。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


浏览 27
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报