微软发布Phi-3多模态模型Phi-3-vision：小模型，大钢炮！

机器学习算法工程师

共 2267字，需浏览 5分钟

·

2024-05-22 08:28

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

微软在开发者大会上发布Phi-3新成员：Phi-3-vision，Phi-3-vision是一个4.2B参数的多模态模型，具有图像理解能力。Phi-3-vision在benchmark数据集上性能超过Claude-3 Haiku和Gemini 1.0 Pro V。

添加图片注释，不超过 140 字（可选）

加上Phi-3-vision，目前Phi-3家族共有4个模型：Phi-3-mini，Phi-3-small，Phi-3-medium和Phi-3-vision。

添加图片注释，不超过 140 字（可选）

目前这个4个模型均已经在HuggingFace上开源：

添加图片注释，不超过 140 字（可选）

具体地，Phi-3-mini是一个3.8B参数模型，有128K 和4K两个版本。Phi-3-small是一个7B模型，有128K和8K两个版本，而Phi-3-medium是一个14B模型，有128K和4K两个版本。

添加图片注释，不超过 140 字（可选）

Phi-3模型虽小，但是却有很高的性能。其中只有7B参数的Phi-3-small模型，在语言、推理、编码和数学的各种基准测试超过了GPT-3.5。

添加图片注释，不超过 140 字（可选）

而14B参数的Phi-3-medium模型性能超过了Gemini 1.0 Pro，Mistral-8x22B等模型。

添加图片注释，不超过 140 字（可选）

Phi-3-vision模型，仅有4.2B参数，在一般视觉推理任务、OCR、表格和图表理解任务中，性能超过了像Claude-3 Haiku和Gemini 1.0 Pro V这样的更大模型。

添加图片注释，不超过 140 字（可选）

Phi-3-vision模型是基于Phi-3-mini和CLIP ViT-L vision encoder构建而来，它具有很强的视觉理解能力：

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

目前HuggingFace上已经有一个在线demo（Microsoft Phi-3-Vision-128k）：

添加图片注释，不超过 140 字（可选）

此外，微软还发布了一个更小的模型Phi-Silica，参数量只有3.3B，它是专为Copilot+ PC NPU所设计，可以直接跑在Windows PC上。

添加图片注释，不超过 140 字（可选）

不过这个模型没有开源，只可以通过Windows App SDK来使用。

看来，微软是打算押宝AI PC了！

推荐阅读

使用PyTorch 2.0加速Transformer：训练推理均拿下！

硬核解读Stable Diffusion（系列三）

硬核解读Stable Diffusion（系列二）

硬核解读Stable Diffusion（系列一）

带你入门扩散模型：DDPM

机器学习算法工程师

一个用心的公众号

浏览 227

1点赞

收藏

分享

举报

评论

图片

表情

马斯克旗下xAI发布首个多模态大模型！

大数据文摘受权转载自头部科技文丨Congerry3月中旬，马斯克旗下的 xAI 刚刚宣布开源 Grok-1 大模型！一个月过去，xAI 又掏出了 Grok-1.5V。Grok-1.5V是xAI开发的第一款多模态模型。除了强大的文本处理能力，Grok现在还可以处理包括文档、图表、截图和照片在内的多种视

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容，还可以理解视觉信息，并且具备优秀的跨模态对齐能力。论文：https://

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到 1.75 万亿参数。项目现有 7 个开源模型成果，模型参数

ImageBind多模态 AI 模型

ImageBind 是支持绑定来自六种不同模态（图像、文本、音频、深度、温度和 IMU 数据）的信息

ImageBind多模态 AI 模型

ImageBind是支持绑定来自六种不同模态（图像、文本、音频、深度、温度和IMU数据）的信息的AI模型，它将这些信息统一到单一的嵌入式表示空间中，使得机器能够更全面、直接地从多种信息中学习，而无需明

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到1.75万亿参数。项目现有7个开源模型成果，模型参数文件需到悟道平台进行下载申请。图文类CogViewCogView参数量为40亿，模型可实现文本生成图像，经过

VisualGLM-6B多模态对话语言模型

VisualGLM-6B多模态对话语言模型

综述 | 多模态 LLM,大模型的未来

机器学习与生成对抗网络

多模态视觉语言模型 Mini-Gemini

大家好，又见面了，我是 GitHub 精选君！背景介绍随着大数据和人工智能技术的快速发展，多模态视觉语言模型（Multi-modality Vision Language Models）已成为近年来研究的热点。这类模型通过融合图像和文本信息，能够更好地理解和生成复杂的视觉语言内容，广泛应用于图像标注

1点赞

收藏

分享

举报