根据 THE DECODER 的报道,IT 之家了解到,AI 大模型在跨多轮对话时表现依然不佳。研究员菲利普·拉班带领的团队给 GPT-5 及后续模型进行了测试,发现它们在代码、数据库、操作指令等六大任务上都遇到了困难。 拉班团队在评测中对比了分片式与拼接式两种信息组织方式,发现当用户把请求分散在多条消息里时,模型性能会明显下降。这种情况的严重程度高达 39%。 幸好这个问题有了解决方案:研究显示 Python 任务的表现最好,部分模型只损失了 10%到20%的性能。不过研究人员指出,真实场景的情况可能更糟,因为测试用的是简单模拟。如果用户在聊天中途突然改变主意,性能下降幅度会更大。 IT 之家发现新版本的模型表现好了一点,性能降幅从 39% 降到了 33%。但专家认为调低温度值这类微调手段并不能解决根本问题。菲利普·拉班建议一旦发现异常情况就把对话重置,先让模型总结一下所有请求,再用这份总结作为新对话的起点。