OpenAI凉了?超过GPT-4o的Claude 3.5 Sonnet发布了!
共 1345字,需浏览 3分钟
·
2024-06-22 10:00
点蓝色字关注“机器学习算法工程师”
设为星标,干货直达!
OpenAI最大的对手公司AnthropicAI发布了最新模型Claude 3.5 Sonnet,它在各方面评测集上超过之前最大的模型Claude 3 Opus,但速度却提升了两倍,而且成本也只有后者的五分之一。
特别地,Claude 3.5 Sonnet在三个核心评测集GPQA、MMLU以及HumanEval上达到了新的SOTA,超过OpenAI的GPT-4o和GPT-4T,以及谷Google的Gemini 1.5 Pro。
Claude 3.5 Sonnet在编程能力上表现突出。在一次内部的代理编码评估中,Claude 3.5 Sonnet 解决了64%的问题,表现优于解决了38%问题的Claude 3 Opus。这个评估测试了模型在给定自然语言描述所需的改进后,修复错误或向开源代码库添加功能的能力。当被指导并提供相关工具时,Claude 3.5 Sonnet 能够独立地编写、编辑和执行代码,具有复杂的推理和故障排除能力。它轻松处理代码翻译,使其特别适用于更新遗留应用程序和迁移代码库。
Claude 3.5 Sonnet 还在视觉理解上有比较大的提升,它在标准视觉基准测试中超越了 Claude 3 Opus。这些突破性的进步在需要视觉推理的任务中最为明显,比如解释图表和图形。Claude 3.5 Sonnet 还能够从不完美的图像中准确转录文本——这是零售、物流和金融服务的核心能力,在这些领域,AI可能从图像、图表或插图中获得的洞察比单独的文本更多。
Claude 3.5 Sonnet支持200K的上下文窗口,在“大海捞针”测试上也可以得到更好的召回。
除此之外,AnthropicAI还采用人工评测来和之前的模型进行对比,Claude 3.5 Sonnet相比之前的模型在各个方便如编程以及创作上均有明显提升。
AnthropicAI已经出了新招,接下来看OpenAI怎么接了。
推荐阅读
使用PyTorch 2.0加速Transformer:训练推理均拿下!
机器学习算法工程师
一个用心的公众号