微软写了个166页的GPT-4V测评报告,是真的强!

共 4376字,需浏览 9分钟

 ·

2023-10-09 12:26


一周之前,ChatGPT迎来重大更新,不管是 GPT-4 还是 GPT-3.5 模型,都可以基于图像进行分析和对话。 与之对应的,多模态版GPT-4V模型相关文档也一并放出。 当时 OpenAI 放出的文档只有18页,很多内容都无从得知,对于想要更深入了解GPT-4V应用的人来说,难度还是相当大的。

短短几天时间,当大家还在死磕OpenAI 放出的18页文档时,微软就公布了一份长达166页的报告,定性地探讨了GPT-4V的功能和使用情况。

9dd9dc69a949e90eb5477b854e4a4e84.webp

报告地址:https://arxiv.org/pdf/2309.17421.pdf

MedARC(医疗人工智能研究中心)联合创始人兼CEO Tanishq Mathew Abraham表示,「这篇报告将是GPT-4V高级用户的必读之作。」

36ce01f70857e9e68b33c69874d69025.webp

该报告共分为11个章节,重点是对最新模型 GPT-4V(ision)进行分析,以加深大众对 LMM(大型多模态模型) 的理解。文章用很大篇幅介绍了GPT-4V可以执行的任务,包括用测试样本来探索GPT-4V的质量和通用性,现阶段GPT-4V能够支持的输入和工作模式,以及提示模型的有效方法。

在探索 GPT-4V 的过程中,该研究还精心策划组织了涵盖各个领域和任务的一系列定性样本。对这些样本的观察表明,GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力,并且其功能的通用性使 GPT-4V 成为强大的多模态通用系统。

此外,GPT-4V 对图像独特的理解能力可以催生新的人机交互方法,例如视觉参考提示(visual referring prompting)。报告最后深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。该研究希望这一初步探索能够激发未来对下一代多模态任务制定的研究,开发和增强 LMM 解决现实问题的新方法,并更好地理解多模态基础模型。

下面我们逐一介绍每个章节的具体内容。

论文概览

论文第一章介绍了整个研究的基本情况。作者表示,他们对GPT-V4的探讨主要在以下几个问题的指导下进行:

1、GPT-4V 支持哪些输入和工作模式?多模态模型的通用性必然要求系统能够处理不同输入模态的任意组合。GPT-4V 在理解和处理任意混合的输入图像、子图像、文本、场景文本和视觉指针方面表现出了前所未有的能力。他们还证明,GPT-4V 能够很好地支持在 LLM 中观察到的test-time技术,包括指令跟随、思维链、上下文少样本学习等。

2、GPT-4V 在不同领域和任务中表现出的质量和通用性如何?为了了解 GPT-4V 的能力,作者对涵盖广泛领域和任务的查询进行了采样,包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。GPT-4V 在许多实验领域都表现出了令人印象深刻的人类水平的能力。

3、使用和提示 GPT-4V 的有效方法是什么?GPT-4V 能够很好地理解像素空间编辑,例如在输入图像上绘制的视觉指针和场景文本。受这种能力的启发,研究者讨论了「视觉参考提示」,它可以直接编辑输入图像以指示感兴趣的任务。视觉参考提示可与其他图像和文本提示无缝结合使用,为教学和示例演示提供了一个细致入微的界面。

4、未来的发展方向是什么?鉴于 GPT-4V 在跨领域和跨任务方面的强大能力,我们不禁要问,多模态学习乃至更广泛的人工智能的下一步是什么?作者将思考和探索分为两个方面,即需要关注的新出现的应用场景,以及基于 GPT-4V 系统的未来研究方向。他们介绍了他们的初步探索结果,以启发未来的研究。

GPT-4V的输入模式

论文第二章总结了GPT-4V支持的输入,分为纯文本、单个图像-文本对、交错图像-文本输入(如图1)三种情况。

3ae16f15631947720931b7e7e36bf45f.webp

GPT-4V的工作模式和提示技术

论文第三章总结了GPT-4V的工作模式和提示技术,包括:

1、遵循文字说明:

90d1254648461b608369f69bee4afb66.webp

2、视觉指向和视觉参考提示:

318d146225b316f4e5d19d2860508746.webp 3b05633f46e05b109f82fb392ab4a712.webp

3、视觉+文本提示:

77a56c6b5368db3f6af06f526ac9af10.webp

4、上下文少样本学习:

f7301b15f02b08ce0e1c974b313762ae.webp fbed643218e5106257addf0dc2579879.webp c050b4d2359818c765123138e1845d7c.webp

视觉-语言能力

论文第四章研究了如何利用 GPT-4V 来理解和解释视觉世界。

首先4.1节探讨了GPT-4V对不同域图像的识别能力,包括识别不同的名人,并能详细描述名人的职业、行为、背景、事件等信息。

d13dd203c705784440ea5341a0cf219d.webp

除了识别名人外,GPT-4V能准确识别测试图像中的地标,还能产生生动而详细的叙述,从而捕捉地标的特性。

96b6dd7064520739cddf8c29a4dde986.webp

GPT-4V还可以识别各种菜肴,并给出菜肴中的特定成分,装饰物或烹饪技术。

25cdb8edaf4b5055219722fa0f56e8de.webp

除此以外,GPT-4V还可以识别常见的疾病,例如其能根据肺部的CT扫描指出潜在的问题,又或者对给定的x光片中的牙齿和颌骨,解释下颌左下方和右侧部分出现的智齿可能需要切除;GPT-4V能正确识别徽标,并提供详细的描述,包括其设计,颜色,形状和符号;如果提示中出现的问题与照片不符,GPT-4V也能进行反事实推理。

8bae608035ceb5ee4c36e9f656e604f0.webp

4.2节探讨了GPT-4V对目标的定位、计数和密集字幕生成。

下图表明GPT-4V能够理解图像中人与物体之间的空间关系,例如识别飞盘和人之间的空间关系。

e62d01609a7be0cd83af07c31f187584.webp

GPT-4V能够确定图像中指定物体的数量,下图表明GPT-4V成功地计算出图像中出现的物体的数量,如苹果、橘子和人。

91b8956a73590901614422f1b4ce52d5.webp

GPT-4V成功地定位和识别图像中的个体,然后为每个个体提供简洁的描述。

35cd205f081784d6e335331e3096f7cb.webp

4.3节介绍了GPT-4V能够进行多模态理解以及对常识的掌握能力。下图展示了GPT-4V能够解释笑话和梗图:

8af1f2b79e66083bc3b3eacd1176dc4a.webp

GPT-4V能够回答科学问题:

e1a0cc6630d1835f4bdb41ad35b3de29.webp

GPT-4V还能进行多模态常识推理:

64333b29efef413fb5085c1f68e5e4a8.webp

4.4节介绍了GPT-4V对场景文本、表格、图表和文档的推理能力。

GPT-4V可以进行数学推理:

4929ac0edafe564f6301538d360ce34d.webp

理解流程图:

27d0c92631d3c5e4369904777a77d42e.webp

理解表格细节:

b8c41c4681abe01efeb925a064d6f3d1.webp

GPT-4V还能阅读一份多页的技术报告,理解每个部分的内容,并对该技术报告进行总结:

9c35f60ba1e186657de2a5e4b66cdcc9.webp

4.5节介绍了GPT-4V对多语言多模态的理解。

GPT-4V能够生成不同语言的图像描述:

af7c16baddd86803acc41efe4cd9a4a6.webp

GPT-4V对多语言文本识别、翻译和描述的结果:

4fe48ec8fcd119aebb14b717d96673f3.webp

4.6节介绍了GPT-4V的编码能力。

基于手写数学方程生成LaTeX代码的能力:

4a1f06dd8ac09395d02e0e872e8052b1.webp

GPT-4V生成Markdown/LaTex代码以重建图像中表的能力:

c80f417130ca64c3b00852852181160d.webp

GPT-4V编写代码以复制输入图形的能力:

6833ec4de6fd9dd4ae7a5258ccb8e2b1.webp

与人类的互动:视觉参考提示

在与多模态系统的人机交互中,指向特定空间位置是一项基本能力,例如进行基于视觉的对话。第 5.1 节显示,GPT-4V 可以很好地理解直接画在图像上的视觉指针。基于这一观察结果,研究者提出了一种名为「视觉参考提示(visual referring prompting)」的新型模型交互方法。如图 50 所示,其核心思想是直接编辑图像像素空间,绘制视觉指针或场景文本,作为人类的参照指示。作者在第 5.2 节详细介绍了这种方法的用途和优势。

e35909d89590f1f699a8c044d83e69da.webp 02a9fa31173d5e75a93210455e31b53c.webp ecb4976be9b58be143ba720e4b872585.webp 2403d42896635abe62e99b9cd7bb68f0.webp

最后,他们在第 5.3 节探讨了如何让 GPT-4V 生成视觉指针输出,以便与人类互动。这些视觉指针对于人类和机器来说都能直观地生成和理解,是人机交互的良好渠道。

1c97c1f25335cc44ed73657e0eba19a7.webp

时间和视频理解

在第六章,作者讨论了GPT4V 的时间和视频理解能力。尽管 GPT4V 主要以图像作为输入,但评估其对时间序列和视频内容的理解能力仍然是对其整体评估的一个重要方面。这是因为现实世界中的事件会随着时间的推移而展开,而人工智能系统理解这些动态过程的能力在现实世界的应用中至关重要。时序预测、时序排序、时序定位、时序推理和基础时序理解等能力有助于衡量模型在一系列静态图像中理解事件顺序、预测未来事件发生和分析随时间变化的活动的能力。

尽管 GPT-4V 以图像为中心,但它能够以类似人类理解的方式理解视频和时间序列。为了提高像 GPT-4V 这样复杂的人工智能模型的通用性和适用性,这方面的测试对其发展和完善至关重要。

在这一章的实验中,研究者使用了多个选定的视频帧作为输入,以测试模型在理解时间序列和视频内容方面的能力。

多图像序列

8c6c06259c604e421ad363445f85e361.webp

视频理解

cf0a3ee88bf4798b0ea09414018948b7.webp 8084f6712ff3cfe6a34d92996e05a489.webp f97a239cb6592d8e53f28af69e15b2b5.webp 911d8e5be3442c92821adb2b04b13023.webp

基于时间理解的视觉参考提示

edf3806ed18db02dc35f758f526fba7a.webp

视觉推理与智商测试

对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。论文第七章测试了GPT-4V是否可以从视觉信号中抽象语义,并可以执行不同类型的人类智商(IQ)测试。

抽象视觉刺激

a9b41c56cf5c3623765f8f8119592d52.webp

部件和物体的发现与关联

9e38f398ca19bc3406dc8efe94eda654.webp

韦氏成人智力量表

49c5f8a548eb323626d61f7fd3f9bf03.webp

瑞文推理测验

ed1451e8b1c1c021cc22ca080f464b22.webp 70771fb147ab9fe57931671eb760bc1b.webp

情商测验

在与人类互动时,GPT-4V 必须具备同理心和情商(EQ),以理解和分享人类的情感。受人类情商测试定义的启发,作者研究了 GPT-4V 在以下方面的能力:从人的面部表情中识别和解读人的情绪;理解不同的视觉内容如何激发情绪;根据所需的情绪和情感生成适当的文本输出。

从面部表情中读出情感

94ef9a0adad2a66ab228faa6915f434c.webp

理解视觉内容如何激发情感

51c56c220d63bfc568fa034675234dcf.webp 6b221d850eef8cbb5c46b27b51e33a2f.webp

情绪条件输出

f9270d643f71bfc6c84d597d27132bcd.webp

新兴应用亮点

这一章展示了 GPT-4V 的卓越功能可能带来的无数高价值应用场景和新用例。诚然,其中一些应用场景可以通过精心策划用于微调现有视觉和语言(VL)模型的训练数据来实现,但作者想强调的是,GPT-4V 的真正威力在于它能够毫不费力地实现开箱即用。此外,他们还介绍了 GPT-4V 如何与外部工具和插件无缝集成,从而进一步拓展其潜力,实现更多创新和协作应用。

** **

找不同

044da82ca220a20a3c2fc8e137d52ddc.webp 4830431ce87d0508457f95fe0d146a83.webp

工业

a6bee1e2acbc8f6aa135a0ccaff50b8e.webp 3f545b27e5d05a0ad6631618d5f7cb80.webp 8f085c1510f1a209de8d4ae8fd2095dc.webp 21d001a46d99f47e5830f68bd4d2e44f.webp 0da553c79ed1ea7b30144731845bcbc0.webp

医药

49c255ed024a0119325932b0e8b6e12f.webp 8f6f668284a24378f76093f0b74ee485.webp a6d3272fa15c69e49a3835364561a480.webp 3f6c155f64594c774628a581f92e453f.webp

汽车保险

51d4317094338bf37c70d65490d88b0e.webp 6524d63859f579193b32c1308ac3bb4e.webp

编写照片说明

385605ec226c01542e2d744fc297d3a0.webp c7bad837f39ec95c8d120650024fb003.webp

图像理解与生成

4dd0aa55956f1aeaca8dbc887e7a05da.webp 5ad6a0f0433e4600b8cd429486674d52.webp 3b3f81714d4d468518e3ad5b9517fd84.webp db3f4d3fa3a2d5ba6ba2152e05c9b934.webp

具身智能体

92811abdfe585da2e90b7ba702133f7e.webp d2d1528fa0fcd1a5d03adac65b517a22.webp cee3131e18266e7dbd5daf94cd6529dc.webp 33cc52109e48bfd99484276b31fc0a61.webp

图形用户界面(GUI)交互

804fa7dd1bfa8122c45fecd1841c4374.webp 58ffe288e17474b47d6911ac28c27b29.webp

基于LLM的智能体

论文第十章讨论了 GPT-4V 未来可能的研究方向,重点是 LLM 中的有趣用法如何扩展到多模态场景。

基于ReAct的GPT-4V多模态链扩展:

f6ee6880e20e22a82661fb981d26cf26.webp

使用自我反思来改进文本到图像模型SDXL生成的文本提示的示例:

17b97c83042a338ed1073f400664b2ab.webp

自洽性:

ce94cb689ea322957e1bb1ab06db066d.webp

检索增强LMM,图74显示了一个检索增强的LMM帮助杂货店结帐的示例。

6b333cb9283878ade3802e14d05477f1.webp

关于GPT-4V的更多场景应用细节,请查看原论文。

本文转自机器之心

浏览 9
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报