你有没有觉得现在的ai 聊天机器人越聊越笨?尤其是跟它们长时间聊天的时候,感觉它们脑子好像转不动了。

你有没有觉得现在的AI聊天机器人越聊越笨?尤其是跟它们长时间聊天的时候,感觉它们脑子好像转不动了。这次微软研究院和赛富时联合搞了个研究,把事情说得挺透。Windows Central刚报道的消息,研究人员把包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的15个顶尖模型都给扒了个底朝天。他们模拟了20多万次对话,发现一个挺吓人的问题,叫“迷失会话”。 数据显示,这些模型在单次提示任务里成功率能到90%,但一旦变成自然的多轮对话,成功率就掉到了65%。这意思是说,AI大模型解决问题的本事其实没咋掉,核心能力只降了15%左右,但“不可靠性”却飙升了112%。它们还是能解决问题的,就是在多轮对话里变得高度不稳定,没法好好跟上上下文。 现在的评测基本都在“单轮”基准测试下搞的,就像一次性把全部指令都塞给AI一样。但现实中的聊天都是渐进式的,信息是一点点补充进来的。这就好比做数学题,一次写完答案和分步骤做效果完全不一样。研究发现,哪怕是最先进的模型,一旦任务被拆成多轮来做,就容易犯系统性错误。 研究人员还分析了为啥会这样。第一是“过早生成”。模型往往不等用户把需求说完就先给出答案了。一旦在早期回合里形成错误假设(也就是第一印象),后续推理就会顺着这个错路走,而不是修正错误。第二是“答案膨胀”。多轮对话里的回复长度比单轮多了20%到300%。回复越长,含的假设和“幻觉”越多,这些东西又会被纳入上下文继续影响后面的推理。 更让人意外的是,像OpenAI的o3和DeepSeek R1这种带“思考词元”的推理模型也没好到哪去。就算把温度参数设为0来保持一致性,这招对衰减问题基本没用。这个发现真让人怀疑现在的评测标准到底行不行。 对那些想用AI建复杂流程的开发者来说,这可是个大麻烦。现有的评估方式忽略了真实世界的情况。目前最管用的办法反而不是让模型多轮交互,而是把所有需要的数据、约束条件和指令一股脑地丢给它们一次性解决。只有这样才能保证输出更一致。