大模型集体失智!9.11比9.9大?全员翻车!

Jack Cui

共 1502字,需浏览 4分钟

 ·

2024-07-16 16:03

部分转自:量子位

前段时间,阿里巴巴数学竞赛中姜萍的事件闹得沸沸扬扬,很多人也让AI尝试挑战这些竞赛题,虽然表现还是不够看,但也能看出来,AI 对于数据库里已有的题目,还是发挥不错的。

不过,近日有人发现,各大 AI 大模型居然在小学生都会的简单数学常识中接连翻车。

这个问题就是,9.11 和 9.9 谁大?

对于人们心目中的天花板 GPT-4 和 GPT-4o,回答丝毫不拖泥带水:

9.11居然比9.9大!我们再看看 Gemini Advanced 的回答:

好的,又是斩钉截铁的给出了一个错误答案。再看到,Claude 3.5 Sonnet 并不像前两位那样直接给出了错误答案,而是开始分析:

分析了一通,拆开还是对的,怎么到了答案,又拉垮了...

经过测试,各大国产大模型也没有幸免于难。

Kimi:

ChatGLM:

通义:

元宝:

豆包:

不过令人意外的是,免费版本的百度文心 3.5,居然保持了清醒,一边分析一边破题,解释和答案完全正确。

不过看网上消息,它之前也是错的,等我试的时候已经是正确的了。如果是这样,那这解 case 的速度,是真快啊。

这个问题是由 Riley Goodside 发现的,有史以来第一个全职提示词工程师。目前在硅谷独角兽Scale AI 工作。

这样一个常识问题,为什么到了 AI 手上就变得如此难缠?

网友给出了解释:AI 都是工程师开发的,对于版本号来说,9.11 确实比 9.9 更大;对于书本的目录来说,9.11 也确实排在 9.9 后面。

在大量的训练集中,常识的输入可能确实不如这些样本多,导致了 AI 把版本号、书籍目录的理解方式代入了常识。

而众所周知,大模型使用 token 的方式理解文字。OpenAI 使用开源的 Tokenizer ,可以用来观察大模型是如何理解这个问题的。

可以看出,9 和小数点分别被分配为“24”和“13”,小数点后的 9 同样也是“24”,而 11 被分配到“994”。

这样问题就很清晰了,模型先比较了 9,发现大小相同,然后比较小数点后面的部分,发现 11 比 9 大,就给出了 9.11 更大的结论。

知道了问题所在,只要向 AI 解释这是一个“双精度浮点数”,它们就能很明确地解决问题了。

只要有了额外条件,AI 似乎就能正确判断这两个数的大小。而 Goodside 在反复试验后说到,想让 AI 上这个当,需要把选项放在提问前面,如果调换顺序,就不会出错。

这个问题让人不禁联想到前些年网上热传的 0.8 x 0.5 等于几,现在轮到 AI 开始反常识了。

AI 大模型发展的道路,至少在数学方面,依旧是任重而道远啊。

·················END·················

浏览 1734
7点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
7点赞
评论
收藏
分享

手机扫一扫分享

举报