科技春晚!OpenAI发布GPT-4o,完全免费,真人语气对话,响应仅需320毫秒

共 2756字,需浏览 6分钟

 ·

2024-05-14 18:32

5月14日凌晨,OpenAI在其官方网站上正式推出了其最新旗舰模型GPT-4o,该模型能够在视频、音频和文本之间进行实时推理,这无疑在全球生成式AI领域中标志着一个历史性的时刻。

OpenAI利用GPT-4o打造的语音版ChatGPT助手,能够与用户在音频和视频中进行实时交互。例如,GPT-4o可以进行实时翻译、歌唱、解答数学题目、讲述笑话等。简单地说,未来的家庭教师、翻译员、秘书等职业可能会面临巨大的挑战。
2013年,曾获奥斯卡最佳原创剧本奖的电影《Her》向我们展示了一段人与AI的深情“恋爱”,其中Her的无所不能展示了AI的强大力量和可能带来的恐怖。
然而,仅仅11年后,GPT-4o就将这部电影的情节变为了现实,每个人都有可能拥有一个自己的Her。


当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。

11年后,GPT-4o将这部电影变成了现实,人人都可以拥有一个Her。

ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。

GPT-4o功能展示


OpenAI已经对GPT-4o的功能进行了大量的演示,我们在此挑选几个具有代表性的例子。比如,通过手机与GPT-4o进行视频交流,让其解读你的想法。
首先,OpenAI的一名员工使用手机拍摄了周围的环境,GPT-4o很快就给出了对周围环境的详细描述。紧接着,当员工让GPT-4o猜测他今天的计划时,GPT-4o推测可能会涉及到OpenAI的相关工作,比如举行一个新产品发布会等。

当员工说出这个发布会与“你”有关时,它的回答有点让人觉得恐怖,居然会像人一样表现出惊讶和停顿,这是以往任何语音助手都不具备的技术特征。

OpenAI总裁兼联合创始人Greg Brockman让两个GPT-4o语音助手互相对话并唱歌。

一位父亲希望GPT-4o能够帮助他的儿子解答一道复杂的数学题。GPT-4o并没有像之前的ChatGPT那样直接给出所有答案,而是像一位家庭教师一样,逐步引导他,告诉他应该如何去解答这道题。

看到这里时也为那些辅导老师捏了一把汗,估计在进化几次连家教的饭碗也不保了。

和GPT-4o相处久了,应该向它介绍点朋友吧。这不OpenAI展示了GPT-4o社牛的一面,直接解读了一条宠物狗。

当你需要与法国人、塞尔维亚人或匈牙利人交谈时,怎么办?传统的翻译软件可能太慢,不适合实时交流。但现在,通过GPT-4o,你可以实现实时翻译。当你说完一句话时,GPT-4o已经帮你翻译好了,并且是以语音的形式输出。这无疑大大提升了跨语言交流的效率。

此外,GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多,此前很多不可能的任务都变得「易如反掌」。

比如,你可以让它帮忙把 OpenAI 的 logo 印到杯垫上:

经过这段时间的技术攻关,OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。

同时,GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:

这是一首诗,GPT-4o 可以将其排版为手写样式:

更复杂的排版样式也能搞定:

与 GPT-4o 合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:

与 GPT-4o 合作,你只需要输入几段文字,就能得到一组连续的漫画分镜:


而下面这些玩法,应该会让很多设计师有点惊讶:


这是一张由两张生活照演变而来的风格化海报:


还有一些小众的功能,比如「文本转艺术字」:


怎么样,看完这几个案例对GPT-4o有何感受,是不是和电影中的Her几乎差不多了?

GPT-4o测试数据

GPT-4o是一个多模态模型,可以在一个神经网络中输入和输出文本、视频、音频3种数据格式。

根据OpenAI给出的官网评测显示,GPT-4o的语音响应可以短至232毫秒,平均响应为320 毫秒。GPT-4o的英语文本和代码能力和 GPT-4 Turbo 的性能差不多。

GPT-4o在MMLU的评测中创下了88.7% 的新高分,超过了Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0等目前市面上著名大模型。

GPT-4o的音频ASR性能比 Whisper-v3 显着提高了对所有语言的语音识别能力,特别是对于那些非常稀少的小语种,并且音频的翻译能力超过了谷歌的Gemini。

推理提升:GPT-4o 在 5-shot  MMLU(常识问题)上创下了 87.2% 的新高分。(注:Llama3 400b 还在训练中)


音频 ASR 性能:GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。


GPT-4o 在语音翻译方面取得了新的 SOTA 水平,并且在 MLS 基准测试中优于 Whisper-v3。


M3Exam 基准测试既是多语言评估基准也是视觉评估基准,由来自多个国家 / 地区的标准化测试多项选择题组成,并包括图形、图表。在所有语言基准测试中,GPT-4o 都比 GPT-4 更强。

未来,模型能力的提升将实现更自然、实时的语音对话,并能够通过实时视频与 ChatGPT 进行对话。例如,用户可以向 ChatGPT 展示一场现场体育比赛,并要求它解释规则。

目前,GPT-4o的文本和图像功能已经在ChatGPT中开放使用,GPT-4o API已支持国内网络直接使用。

本文素材来源OpenAI官网

浏览 59
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报