对GPT-4o 模型的一些猜想!全网最细!阿泽的学习笔记共 1893字,需浏览 4分钟 ·2024-05-21 12:05 来源|知乎—亚东 地址|https://zhuanlan.zhihu.com/p/697626191 作为OpenAI最新的发布产品GPT-4o是一个非常优秀的多模态大模型。它的输入是语音、文字、图像/视频。输出自然有语音、文字、图像。如果说它像一个人的能力,那还真的差不多了。可能离AGI就不远了吧!在现有的AI能力路上,SamAltman那句逆言的忠耳一定要听:不要在OpenAI前进的路上;不要研究基础的AI能力。 可是OpenAI又不站在中国这一边,能怎么办呢?我们只能一边期望OpenAI达到AGI;一边既要努力研发芯片、一边又要努力研究模型;还要判断 GPT5是不是就极度接近AGI了呢? 不管这些,还是看看GPT-4o可能的技术吧。也许你看一个公司的产品发布是会得到它的技术端倪的。 从整体上看,GPT-4o是一个极其特殊的多模态模型。不太可能是多个模型组合的东西。所以,它的大概结构框架可能是这样的图: 这里边有几个难点 流式的语音识别。尽管从架构上看,流式语音与批处理语音处理的差别不大。但是实际技术难度上是有相当大的区别的。因为批处理在数据预处理,模型数据的输入固定大小,模型的训练等方面与这个图像、文字可能没有什么差异,只要在数据预处理这块做个手脚,完成特征到嵌入的转换,可能就是一个标准的多模型模型就成了! 但是这个流式的处理,麻烦在于两点:实时性对于性能极其的敏感,这次的GPT-4o本身可以说在300ms左右解决了输入与输出这个响应,那在基础模型的优化计算、算力的大的集群调度上有了一个质的飞跃!甚至是Nvidia的显卡供货上都得到了优先保障! 另一个难点,可能是流式模型的嵌入转化。这方面的论文好像在去年才逐渐增加的。典型的是 onformer-Based on-Device Streaming Speech Recognition 一类的吧。tract/document/10023291 所以我觉得这个流式的问答一出来,所有搞语音AI助手的创业公司真的就死掉了! SamAltman那句逆言的忠耳一定要听:不要在OpenAI前进的路上;不要研究基础的AI能力。 再就是不那么惊艳的 文字与图像的能力,很明显过去在GPT-4这个阶段,我们是体会过这个东西的,但是说实话并没有达到特别好的程度。现在这个实时对话的那个 图的识别,你感到的是什么? 它可能正在多模态,也就是图像这个领域达到它曾经在文字处理上达到的高度。真的能够跟人一样的认清这个世界的样子? 不过这个东西的架构上,大家可能差不多,至少在国内公开的模型中通义千问曾经做得不错的。 但是,当它能看到你看到的一样的东西,也能像你一样的理解这个世界? 你不觉得它可怕吗? 再看看这个程序的理解能力,你觉得程序员怕不怕??? 就问你怕不怕? 在去年我就写过程序员这个职业要完蛋的文章。 今天我要更明确的说,程序员这个职业看到了落日! 如果你想,可能真的要去重新认识一下,人工智能这件事! END 推荐阅读 幻方发布全球最强MOE大模型!DeepSeek-V2 浅谈大模型 SFT 的实践落地:10 问 10 答 大模型国产之光Kimi.AI实际测评 十分钟理解 Transformer 大模型时代,是 Infra 的春天还是冬天? 微软GPT5.0最近交流要点 ChatGLM 金融大模型决赛方案总结 大模型LLM-微调经验分享&总结 大模型强化学习方向面经 大模型训练为什么用A100不用4090 浏览 61点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 Deepseek-V2技术报告解读!全网最细!深度求索Deepseek近日发布了v2版本的模型,沿袭了1月发布的 Deepseek-MoE(混合专家模型)的技术路线,采用大量的小参数专家进行建模,同时在训练和推理上加入了更多的优化。沿袭了一贯的作风,Deepseek对模型(基座和对话对齐版本)进行了完全的mit协议开源,可以商用。对于算力不是那DayNightStudy0全网最细!PyCharm 安装+破解详细使用指南开发者技术前线0对前端路由的一些理解程序员成长指北0对 ResNet 本质的一些思考小白学视觉0全网最通俗易懂的Kafka入门Java3y0全网最详细的 Maven 教程!肉眼品世界0一些最常见和最有趣的CSS错误IQ前端0对移动中台的一些想法前端那些趣事0全网最全的,最详细的,最友好的 Typescript 新手教程人生代码0全网最详细的一篇SpringCloud总结程序员闪充宝0点赞 评论 收藏 分享 手机扫一扫分享分享 举报