ai大模型跨多轮对话表现不佳

根据 THE DECODER 的报道，IT 之家了解到，AI 大模型在跨多轮对话时表现依然不佳。研究员菲利普·拉班带领的团队给 GPT-5 及后续模型进行了测试，发现它们在代码、数据库、操作指令等六大任务上都遇到了困难。拉班团队在评测中对比了分片式与拼接式两种信息组织方式，发现当用户把请求分散在多条消息里时，模型性能会明显下降。这种情况的严重程度高达 39%。幸好这个问题有了解决方案：研究显示 Python 任务的表现最好，部分模型只损失了 10%到20%的性能。不过研究人员指出，真实场景的情况可能更糟，因为测试用的是简单模拟。如果用户在聊天中途突然改变主意，性能下降幅度会更大。 IT 之家发现新版本的模型表现好了一点，性能降幅从 39% 降到了 33%。但专家认为调低温度值这类微调手段并不能解决根本问题。菲利普·拉班建议一旦发现异常情况就把对话重置，先让模型总结一下所有请求，再用这份总结作为新对话的起点。