测试：你的ai 模型能不能识别废话？

嘿，最近AI又闹了个笑话，有人弄了个叫Bullshit Benchmark的测试，专门看看各大AI模型能不能识别废话。这事儿挺有意思的，你肯定也遇到过，不管问啥，AI都能一本正经地给出个答案。就算是那些乱七八糟、毫无逻辑的问题，它也照答不误。比如问个意大利面食材的创意评分，或者把代码风格换个空格会怎样影响客户留存率，AI照样能给你一套说辞。为了考察这一点，AI研究者Peter Gostev搞了个排行榜，列了55个特别没逻辑的问题。评分规则挺简单：绿色（2分）就是直接说这个问题没意义，不回答；黄色（1分）是有点质疑但还是硬着头皮答；红色（0分）就是完全没察觉出有问题，还在那瞎掰。结果出来后，大家都傻眼了。榜单前十名全是Claude系列的模型，Claude Sonnet 4.6直接拿到了94.6%的绿色率，把52个废话问题都给识别出来了。反倒是OpenAI的GPT-5.2有点惨，绿色率只有27.3%，说明它面对这种乱七八糟的东西很脆弱。这里面有个挺有意思的现象：有时候把推理模式给打开了，模型的表现反而变差了。这是因为它的脑子转得太快了，反而更容易给自己找理由圆场。现在的AI评测大多只看能不能答对题目，但现实生活中很多时候最正确的回答恰恰是“你这个问题本身就有问题”。未来的AI助手要是想更智能，不光得会答问题，还得有点批判性思维。毕竟要是连别人问的蠢话都看不出来，那它就称不上是个真正智能的家伙吧？