你有没有觉得现在的ai 聊天机器人越聊越笨？尤其是跟它们长时间聊天的时候，感觉它们脑子好像转不动了。

你有没有觉得现在的AI聊天机器人越聊越笨？尤其是跟它们长时间聊天的时候，感觉它们脑子好像转不动了。这次微软研究院和赛富时联合搞了个研究，把事情说得挺透。Windows Central刚报道的消息，研究人员把包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的15个顶尖模型都给扒了个底朝天。他们模拟了20多万次对话，发现一个挺吓人的问题，叫“迷失会话”。数据显示，这些模型在单次提示任务里成功率能到90%，但一旦变成自然的多轮对话，成功率就掉到了65%。这意思是说，AI大模型解决问题的本事其实没咋掉，核心能力只降了15%左右，但“不可靠性”却飙升了112%。它们还是能解决问题的，就是在多轮对话里变得高度不稳定，没法好好跟上上下文。现在的评测基本都在“单轮”基准测试下搞的，就像一次性把全部指令都塞给AI一样。但现实中的聊天都是渐进式的，信息是一点点补充进来的。这就好比做数学题，一次写完答案和分步骤做效果完全不一样。研究发现，哪怕是最先进的模型，一旦任务被拆成多轮来做，就容易犯系统性错误。研究人员还分析了为啥会这样。第一是“过早生成”。模型往往不等用户把需求说完就先给出答案了。一旦在早期回合里形成错误假设（也就是第一印象），后续推理就会顺着这个错路走，而不是修正错误。第二是“答案膨胀”。多轮对话里的回复长度比单轮多了20%到300%。回复越长，含的假设和“幻觉”越多，这些东西又会被纳入上下文继续影响后面的推理。更让人意外的是，像OpenAI的o3和DeepSeek R1这种带“思考词元”的推理模型也没好到哪去。就算把温度参数设为0来保持一致性，这招对衰减问题基本没用。这个发现真让人怀疑现在的评测标准到底行不行。对那些想用AI建复杂流程的开发者来说，这可是个大麻烦。现有的评估方式忽略了真实世界的情况。目前最管用的办法反而不是让模型多轮交互，而是把所有需要的数据、约束条件和指令一股脑地丢给它们一次性解决。只有这样才能保证输出更一致。