太强了!ChatGPT的高级语音模式终于上线了!

菜鸟学Python

共 4213字,需浏览 9分钟

 ·

2024-08-04 07:08


👇我的小册 45章教程:(小白零基础用Python量化股票分析小册) ,原价299,限时特价2杯咖啡,满100人涨10元。

转自 机器之心 编辑:蛋酱、小舟


OpenAI 的「Her」终于向部分人群开放了。



今年 5 月,OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。


现在,OpenAI 宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式,让用户首次获得 GPT-4o 的超现实音频响应。这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封电子邮件,其中包含有关如何使用该应用程序的说明。


「自从我们首次演示先进的语音模式以来,我们一直致力于加强语音对话的安全性和质量,准备将这项前沿技术带给数百万人。」OpenAI 表示,该功能将在 2024 年秋季逐步向所有 Plus 用户推出。



一些用户已经晒出了高级语音模式的使用效果:


来源:https://x.com/tsarnick/status/1818402307115241608


当你和 ChatGPT 讲段子时,Ta 可以提供一些笑声陪伴:


来源:https://x.com/yoimnotkesku/status/1818406786077970663


使用 ChatGPT 的高级语音模式,「Her」可以在讲故事的同时创建背景音乐,并且适用于多种语言。


来源:https://x.com/yoimnotkesku/status/1818415019349901354


法语、西班牙语和乌尔都语也都可以:


来源:https://x.com/yoimnotkesku/status/1818424494106853438


但中文表达不太地道,仿佛一个正在学习中文的「歪果仁」:


来源:https://x.com/yoimnotkesku/status/1818446895083139170


听完的人都懵了:


而口音问题不只出现在中文,据说德语也一样:


来源:https://x.com/yoimnotkesku/status/1818445235606671670

最后,讲段绕口令吧:


来源:https://x.com/yoimnotkesku/status/1818427991514337695


OpenAI 表示高级语音模式与 ChatGPT 目前提供的语音模式有所不同。


ChatGPT 的旧语音模式解决方案使用了三种独立的模型:一个模型将语音转换为文本,GPT-4 负责处理提示(prompt),第三个模型则负责将 ChatGPT 的文本转换为语音。而 GPT-4o 是多模态的,能够在没有辅助模型的帮助下处理这些任务,从而显著降低对话延迟。OpenAI 还表示 GPT-4o 可以感知用户声音中的情绪语调,包括悲伤、兴奋等等。

今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,「她」的反应速度、与真人声音的惊人相似度震惊了观众 —— 问题就出在这儿。



这个名叫 「Sky」 的声音酷似电影《Her》中人工助手的扮演者斯嘉丽・约翰逊(Scarlett Johansson)。


在 OpenAI 演示之后不久,约翰逊说她曾拒绝 OpenAI CEO 山姆・奥特曼关于使用她的声音的多次请求,在看到 GPT-4o 的演示之后,她聘请了法律顾问为自己的声音辩护。OpenAI 否认使用了斯嘉丽・约翰逊的声音,但也删除了演示中的声音。


6 月,OpenAI 表示将推迟发布高级语音模式,以改进其安全措施。


漫长的等待后,「Her」总算与大家见面了。OpenAI 表示,此次推出的高级语音模式将仅限于 ChatGPT 与付费配音演员合作,制作了四种预设语音:Juniper、Breeze、Cove 和 Ember。


值得注意的是,输出的声音有且只有这四种 —— OpenAI 5 月份的演示中展示的 Sky 语音已不再适用于 ChatGPT。OpenAI 发言人 Lindsay McCallum 表示:「ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出。」


这种设置的初衷是避免 Deepfake 争议。今年 1 月,人工智能初创公司 ElevenLabs 的语音克隆技术被用来冒充美国总统拜登,欺骗了新罕布什尔州的初选选民,引发了不小的争议。


OpenAI 还表示,已经引入了新的过滤器来阻止某些生成音乐或其他受版权保护音频的请求。


去年,很多图像生成、音乐生成的 AI 公司因侵犯版权而陷入了法律纠纷,尤其是喜欢打官司的唱片公司,已经起诉过人工智能音频生成器 Suno 和 Udio。而 GPT-4o 这样的音频模型则让可以提出投诉的公司增加了一个全新的类别。

据说,OpenAI 与 45 种语言的 100 多名外部「红队」成员一起测试了 GPT-4o 的语音功能。而这些关键信息,将在 8 月份一份关于 GPT-4o 的功能、局限性和安全评估报告中有更详细的公布。


参考链接:

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant


最后推荐一下我们团队写的量化小册的内容,45篇内容!从Python安装,入门,数据分析,爬取股票基金的历史+实时数据,以及如何写一个简单量化策略,策略回测,如何看资金曲线统统都有介绍!非常超值!


欢迎订阅:原价299 早鸟价2杯咖啡钱,即可永久阅读。满400人又要涨价了,现在的价格非常非常低,只要2杯奶茶,就可以终身订阅+课程源码,还有永久陪伴群。48小时无理由退款,放心食用!


往期推荐

量化: 如何用Python爬取创业板历史+实时股票数据!实战股票分析篇利用Pandas 9招挖掘五粮液股价实战股票数据分析篇 Pandas滚动操作 |量化股票第一步,用Python画股票K线,双均线图,可视化你的股票数据!如何用Python爬取全部800多只ETF基金数据!如何用Python写一个双均线策略 |如何用Python开发一个多策略机器人!上篇!Python量化系列-用布林策略买五粮液能赚多少钱?只要4秒钟!用Python 获取上证指数34年的历史日线数据!


入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径


干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影


趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!

AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影

小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!|  再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小

浏览 100
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报