VLE视觉-语言多模态预训练模型

0粉丝
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本
简介
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力有更强要求的视觉常识推理(VCR)任务中,VLE取得了公开模型中的最佳效果。在线演示地址:http... 更多
其它信息
地区
国产
开发语言
Python
开源组织
所属分类
神经网络/人工智能、 机器学习/深度学习
授权协议
Apache-2.0
操作系统
跨平台
收录时间
2023-09-26
软件类型
开源软件
适用人群
未知

时光轴

里程碑1
LOG0
2023
2023-09
轻识收录
评价
0.0(满分 10 分)0 个评分
什么是点评分
图片
表情
全部评价( 0)
推荐率 100%
推荐