【南洋理工-CVPR2022】视觉语言模型的条件提示学习数据派THU关注共 724字,需浏览 2分钟 ·2022-03-19 00:13 来源:专知本文为论文,建议阅读5分钟一种名为上下文优化(CoOp)的方法将提示学习的概念引入视觉领域,以适应预训练的视觉语言模型。随着功能强大的预训练视觉语言模型(如CLIP)的兴起,研究如何使这些模型适应下游数据集变得非常必要。最近提出的一种名为上下文优化(CoOp)的方法将提示学习的概念引入视觉领域,以适应预训练的视觉语言模型。具体来说,CoOp将提示中的上下文单词转换为一组可学习的向量,并且仅使用少量标记的图像进行学习,可以在经过大量调整的手动提示中实现巨大的改进。在我们的研究中,我们确定了CoOp的一个关键问题: 学习的上下文不能泛化到同一数据集内更广泛的不可见类,这表明在训练期间观察到的CoOp基类过拟合。为了解决这个问题,我们提出了条件上下文优化(CoCoOp),它通过进一步学习一个轻量级神经网络来为每幅图像生成一个输入条件标记(向量)来扩展CoCoOp。与CoOp的静态提示相比,我们的动态提示适应每个实例,因此对类迁移不那么敏感。大量的实验表明,对于不可见的类,CoCoOp的泛化效果要比CoOp好得多,甚至在单个数据集之外还显示出很好的可迁移性; 具有较强的域泛化性能。代码可在https://github.com/ KaiyangZhou/CoOphttps://www.zhuanzhi.ai/paper/8fc04028caefdfdb427ca26bc1005d6e 浏览 33点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 多模态视觉语言模型 Mini-Gemini大家好,又见面了,我是 GitHub 精选君!背景介绍随着大数据和人工智能技术的快速发展,多模态视觉语言模型(Multi-modality Vision Language Models)已成为近年来研究的热点。这类模型通过融合图像和文本信息,能够更好地理解和生成复杂的视觉语言内容,广泛应用于图像标注视觉-语言(VL)智能:任务、表征学习和大型模型新机器视觉0计算机视觉 : 模型、学习和推理Dr Simon J.D. Prince is a faculty member in the De基于视觉模型强化学习的通用机器人小白学视觉0视觉语言解析各种不同案例后,《视觉语言:如何将艺术与设计转化为语言》还将在学术领域帮助在校学生把无声的视觉文视觉语言视觉语言0视觉语言视觉语言0广州南洋理工职业学院广州南洋理工职业学院0广州南洋理工职业学院广州南洋理工职业学院,是经广东省人民政府批准、国家教育部备案的省属全日制普通高等学校,简称“南洋理工”。学校与广东科技学院、广州华南商贸职业学院同属广东南博教育集团旗下高等院校,依托南博集团雄厚的办学实力与集团化办学优势,取得了卓越的办学成绩,赢得了社会各界一致好评2022年成功入选省级高水平高职院校建设计划。学校坐落在有“广州后花园”视觉语言《英国设计基础系列:视觉语言》是一本实用的书籍,着眼于视觉语言理论,涉及线条、形状、色调、色彩、肌理点赞 评论 收藏 分享 手机扫一扫分享分享 举报