简介
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力有更强要求的视觉常识推理(VCR)任务中,VLE取得了公开模型中的最佳效果。在线演示地址:http... 更多
其它信息
地区
国产
开发语言
Python
开源组织
无
所属分类
神经网络/人工智能、 机器学习/深度学习
授权协议
Apache-2.0
操作系统
跨平台
收录时间
2023-09-26
软件类型
开源软件
适用人群
未知
评价
0.0(满分 10 分)0 个评分
什么是点评分
全部评价(
0)
推荐率
100%