GPT-4o:大模型风向,OpenAI大更新

智能计算芯世界

共 4217字,需浏览 9分钟

 · 2024-05-20

本文来自“GPT-4o:大模型风向标,OpenAI重大更新”。美国时间 5 月 13 日,OpenAI 迎来两项重大更新。具体包括:1)发布桌面版 APP 及更新 UI 后的 ChatGPT,用户使用更加简单与自然;2)发布新的全能模型 GPT-4o,实现跨模态即时响应,相比 GPT-4 Turbo,性价比显著提升的同时向用户免费开放。

下载链接:

GPT-4o:大模型风向标,OpenAI重大更新

2024海内外智能硬件行业创新趋势调研报告

《2024年GOPS全球运维大会:大模型合集》

1、CMDB大模型赋能下的证券行业持续部署实践 2、大模型时代研发运营领域的场景应用趋势展望 3、大规模平台工程实践血泪史 4、大语言模型在 IT 运维领域的建设落地实践 5、大模型Agent在AIOps运维场景的实践

《2024年GOPS全球运维大会:大模型专题合集》

1、大模型:无处不在的模型之简要质量度量 2、大模型:LLM 在操作系统运维场景的现状、挑战和实践 3、大模型:蚂蚁集团 OpsGPT 落地实践和技术开源 4、大模型:迈向更高层次智能化的生成式软件开发 5、大模型:那些潜藏的大模型评估乐趣

《2024年GOPS全球运维大会:AI专题合集》

1、AI:趣丸科技在运维 AI Agent 的探索与实践 2、AI:漫谈人工智能的一道重要门坎:系统思维 3、AI:企业应用新范式,基于云智能平台实现 AI 应用开发


1. 桌面版及新 UI ChatGPT

ChatGPT 发布桌面版 APP,支持与计算机语音对话,提升用户与模型交互体验。对于免费和付费用户,OpenAI 推出了适用于 macOS 的新 ChatGPT 桌面应用程序,该应用程序旨在无缝集成到用户的计算机上执行的任何操作。通过简单的键盘快捷键(Option + Space),用户便可向 ChatGPT 提问,并支持直接在应用程序中截取屏幕截图进行讨论。与此同时,ChatGPT 支持与计算机直接语音对话,并在未来将推出新音频和视频功能。

OpenAI 首先向 Plus 用户推出 macOS 应用程序,并将在未来几周内更广泛地提供该应用程序,同时计划在今年晚些时候推出 Windows 版本。

此外,OpenAI 还全面改版了 UI 界面,旨在提供更加友好和更具有对话性的外观,让它和用户的互动也变得更自然与简单。

2. GPT-4o 实现毫秒级视觉音频理解

GPT-4o(“o”代表“omni”)为 OpenAI 最新的旗舰型号,不仅提供与 GPT-4 同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力。此次发布会,GPT-4o 具有如下亮点:

1)毫秒级响应,实现即时语音对话。GPT-4o 能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT 对话当中,GPT-3.5 与 GPT-4 平均延迟分别为 2.8s、5.4s,而 GPT-4o对音频输入的响应时间最短为 232 毫秒,平均为 320 毫秒,这与人类在对话中的响应时间相似。GPT-4o 运行速度大大提升,迈向了更自然的人机交互。

2)更先进的视觉与音频理解能力,智能感知语气与语态。与现有模型相比,GPT-4o 展现了出色的视觉和音频理解能力:首先,用户可在对话中随时打断;其次,可根据场景生成多种音调,带有人类般的情绪和情感;直接通过和 AI 视频通话让它在线解答各种问题。

3)API 性价比显著提升。与 GPT-4 Turbo 相比,GPT-4o 速度提升 2 倍、成本却降低了 50%,且速率限制提升 5 倍。

3. 端到端多模态 GPT-4o,刷新 SOTA 性能飞跃

传统语音 AI 通常经过三步法实现对话功能,在这过程中会丢失很多信息且不能判断情绪变化。三步法具体为:1)语音识别或 ASR:音频到文本,类似 Whisper;2)LLM 计划下一步要说什么:文本 1 到文本 2;3)语音合成或 TTS:文本 2 到音频,类似 ElevenLabs 或 VALL-E。GPT-4 便采用该模式,在这过程中不仅响应速度更慢而且丢失了大量信息,无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。

GPT-4o 为跨模态端到端训练新模型,意味着所有输入和输出都由同一神经网络处理,成为真正的多模态统一模型,带来性能的飞跃提升。除了响应速度更快之外,在传统基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上达到了新的高水位线。

文本推理:GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7%的新高分。此外,在传统的 5-shot no-CoT MMLU 上,GPT-4o 创下了 87.2%的新高分。相较于 GPT-4 Turbo 而言,GPT-4o 文本推理能力有一定提升。

多语言识别:与 Whisper-v3 相比,GPT-4o 在多种语言的识别中表现优异,尤其是资源匮乏的语言。

音频翻译:GPT-4o 在音频翻译表现上达到新的高水准,且在 MLS 基准测试中优于 Whisper-v3。

M3Exam 测试:M3Exam 基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。

视觉理解:GPT-4o 在视觉感知基准上实现了最先进的性能。具体来看,GPT-4o 在 MMMU 测试中分数达到 69.1,而 GPT-4 Turbo、Gemini 1.0 Ultra、Gemini1.5 Pro、Claude Opus 分别为 63.1、59.4、58.5、59.4。

此外,在端到端多模态架构支持下,GPT-4o 多模态能力范围显著拓展。除了文本、图像等常用功能,GPT-4o 还支持 3D 物品合成、文本转字体等多样化功能。

下载链接:
《大模型技术在行业应用实践合集(1)》
1、基于多模态智能引擎大模型知识库技术应用 2、饿了么垂域大模型EGPT训练与C端应用实践 3、金山云:大模型推动知识工作领域的创新与变革 4、超大规模集群下大语言模型训练的最佳实践 5、蚂蚁大模型存储加速实践
《大模型技术在行业应用实践合集(2)》
1、大模型数据安全:从测评到实时检测的全流程实践 2、大模型原生应用产品设计的前沿探索 3、海天瑞声在大模型数据的探索与实践 4、类 Sora 开源架构模型训练实践 5、大模型 AI 训练的数据存储加速
《大模型技术在行业应用实践合集(3)》
1、基于 AI 大模型生成微信小程序的探索与实践 2、教育大模型,说你行你才行 3、大模型赋能的数据资产平台构建实践 4、大规模微服务破局之道:合并编译 5、大规模工程及领域架构治理与服务架构合理性的度量
《大模型技术在行业应用实践合集(4)》
1、MoonBit 月兔:大语言模型时代的软件开发起点 2、AI 大模型技术在数据库 DevOps 的实践 3、大模型应用开发新范式 4、大模型赋能 DevOps,研发全环节提速 5、大模型技术在快手搜索的应用 6、快意大模型在短视频互动场景的应用探索
《超大模型训练技术合集》
1、超大规模多模态预训练模型M6的关键技术突破及产业应用 2、高效训练百万亿参数预训练模型的系统挑战和对策
量子科技专题系列一:逐梦量子,星辰大海(2024)
《半导体行业深度报告合集(2024)》
大模型时代:生成式AI发展与科技创新范式
OpenAI的飞轮:AI新产品、巨量融资、需求和算力
大语言模型:LLM技术报告
《先进计算技术专题》
1、先进计算应用创新白皮书(2023) 2、算力时代:先进计算十大趋势 3、先进计算技术路线图(2023年)
AI系列:光是通信的必由之路,OCS成功应用
人形机器人报告:AI超预期产业落地,核心零部件配套星辰大海
AI的内存瓶颈,高壁垒高增速(2024)
500+份重磅ChatGPT专业报告
2023年AIGC移动市场洞察报告
虚拟数字人研究报告:溯源、应用、发展(2024)
AI服务器催化HBM需求爆发,核心工艺变化带来供给端增量(2024)
《AI算力芯片产业链及全景图》
1、AI算力产业链梳理(2023) 2、国产AI算力芯片全景图
智能时代的计算架构发展趋势
《半导体行业系列报告合集》
1、半导体行业系列报告(一):道阻且长,行则将至 2、半导体行业系列报告(二)碳化硅:衬底产能持续扩充,渗透加速国产化 3、半导体行业系列报告(三)先进封装:先进封装大有可为,上下游产业链将受益
芯片未来可期:数据中心、国产化浪潮和先进封装(精华)


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

浏览 103
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报