测试:你的ai 模型能不能识别废话?

嘿,最近AI又闹了个笑话,有人弄了个叫Bullshit Benchmark的测试,专门看看各大AI模型能不能识别废话。这事儿挺有意思的,你肯定也遇到过,不管问啥,AI都能一本正经地给出个答案。就算是那些乱七八糟、毫无逻辑的问题,它也照答不误。比如问个意大利面食材的创意评分,或者把代码风格换个空格会怎样影响客户留存率,AI照样能给你一套说辞。为了考察这一点,AI研究者Peter Gostev搞了个排行榜,列了55个特别没逻辑的问题。评分规则挺简单:绿色(2分)就是直接说这个问题没意义,不回答;黄色(1分)是有点质疑但还是硬着头皮答;红色(0分)就是完全没察觉出有问题,还在那瞎掰。 结果出来后,大家都傻眼了。榜单前十名全是Claude系列的模型,Claude Sonnet 4.6直接拿到了94.6%的绿色率,把52个废话问题都给识别出来了。反倒是OpenAI的GPT-5.2有点惨,绿色率只有27.3%,说明它面对这种乱七八糟的东西很脆弱。这里面有个挺有意思的现象:有时候把推理模式给打开了,模型的表现反而变差了。这是因为它的脑子转得太快了,反而更容易给自己找理由圆场。 现在的AI评测大多只看能不能答对题目,但现实生活中很多时候最正确的回答恰恰是“你这个问题本身就有问题”。未来的AI助手要是想更智能,不光得会答问题,还得有点批判性思维。毕竟要是连别人问的蠢话都看不出来,那它就称不上是个真正智能的家伙吧?