微软发布Phi-3多模态模型Phi-3-vision:小模型,大钢炮!

共 2267字,需浏览 5分钟

 ·

2024-05-22 08:28

点蓝色字关注“机器学习算法工程师

设为星标,干货直达!

微软在开发者大会上发布Phi-3新成员:Phi-3-vision,Phi-3-vision是一个4.2B参数的多模态模型,具有图像理解能力。Phi-3-vision在benchmark数据集上性能超过Claude-3 Haiku和Gemini 1.0 Pro V。


添加图片注释,不超过 140 字(可选)


加上Phi-3-vision,目前Phi-3家族共有4个模型:Phi-3-mini,Phi-3-small,Phi-3-medium和Phi-3-vision。


添加图片注释,不超过 140 字(可选)


目前这个4个模型均已经在HuggingFace上开源:


添加图片注释,不超过 140 字(可选)


具体地,Phi-3-mini是一个3.8B参数模型,有128K4K两个版本。Phi-3-small是一个7B模型,有128K和8K两个版本,而Phi-3-medium是一个14B模型,有128K和4K两个版本。


添加图片注释,不超过 140 字(可选)


Phi-3模型虽小,但是却有很高的性能。其中只有7B参数的Phi-3-small模型,在语言、推理、编码和数学的各种基准测试超过了GPT-3.5。


添加图片注释,不超过 140 字(可选)


而14B参数的Phi-3-medium模型性能超过了Gemini 1.0 Pro,Mistral-8x22B等模型。


添加图片注释,不超过 140 字(可选)


Phi-3-vision模型,仅有4.2B参数,在一般视觉推理任务、OCR、表格和图表理解任务中,性能超过了像Claude-3 Haiku和Gemini 1.0 Pro V这样的更大模型。


添加图片注释,不超过 140 字(可选)


Phi-3-vision模型是基于Phi-3-mini和CLIP ViT-L vision encoder构建而来,它具有很强的视觉理解能力:


添加图片注释,不超过 140 字(可选)



添加图片注释,不超过 140 字(可选)


目前HuggingFace上已经有一个在线demo(Microsoft Phi-3-Vision-128k):


添加图片注释,不超过 140 字(可选)


此外,微软还发布了一个更小的模型Phi-Silica,参数量只有3.3B,它是专为Copilot+ PC NPU所设计,可以直接跑在Windows PC上。


添加图片注释,不超过 140 字(可选)


不过这个模型没有开源,只可以通过Windows App SDK来使用。

看来,微软是打算押宝AI PC了!



推荐阅读

使用PyTorch 2.0加速Transformer:训练推理均拿下!

硬核解读Stable Diffusion(系列三)

硬核解读Stable Diffusion(系列二)

硬核解读Stable Diffusion(系列一)

带你入门扩散模型:DDPM


机器学习算法工程师


                                    一个用心的公众号


浏览 227
1点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
1点赞
评论
收藏
分享

手机扫一扫分享

分享
举报