麻省理工学院新方法识别过度自信的大语言模型

Kimia Hamidieh是麻省理工学院电气工程与计算机科学的研究生，她提出了一种更有效的方法来识别过度自信的大语言模型。大语言模型有时候会生成看起来很有说服力但实际上错误的回答。为了验证预测的可靠性，研究人员开发了不确定性量化方法。一种流行的做法是把相同的问题多次提交给大语言模型，观察它们是否给出相同的答案。但这种方法仅仅测量了模型的自信程度，因为即使是最先进的大语言模型也可能自信地犯错。这种过度自信会让用户误以为预测是准确的，特别是在医疗或金融等需要高度准确性的领域，可能会导致严重后果。为了解决这个问题，Hamidieh和她的团队给大语言模型引入了一种新方法。这个新方法是通过把目标模型给出的回答与一组相似但不同来源的大语言模型进行比较来测量不确定性。比如把目标模型与IBM的Claude、谷歌的Gemini以及麻省理工学院-IBM沃森人工智能实验室提供的模型进行比较。研究发现这种跨模型分歧测量比传统方法更准确地捕捉到了认知不确定性。认知不确定性是指当一个回答存在错误时，模型对是否使用正确方法所产生的不确定性。麻省理工学院研究团队结合了跨模型分歧测量和自一致性测量两种方法来创建总不确定性指标。自一致性是指大语言模型对于同一个提示多次给出相同答案的能力。这个总不确定性指标在10项实际任务中表现出色，这些任务包括问答、数学推理等。在这些任务中，总不确定性指标比其他方法更擅长识别不可靠的预测。他们的研究还发现这个总不确定性指标在降低计算成本方面也有优势。具体来说，他们发现认知不确定性在具有唯一正确答案的任务上表现最佳，比如事实性问答和数学推理。但在开放性查询任务上可能表现不佳。未来研究人员可能会继续改进这个方法以适应更多样化的任务。这个项目部分是由麻省理工学院-IBM沃森人工智能实验室资助的。该实验室由Kimia Hamidieh、ChatGPT等多家机构和个人共同参与和支持。那么什么是大语言模型的过度自信问题呢？它指的是当大语言模型生成错误答案时仍然表现出高度自信。即使是最先进的模型也可能自信地犯错。麻省理工学院新方法是如何识别不可靠的模型回应呢？它是通过比较目标模型给出的回答与来自不同公司训练出来的相似大语言模型之间的分歧来估计认知不确定性。然后再结合传统自一致性测量方法形成总不确定性指标来识别自信但错误的预测。那么这个总不确定性指标在哪些任务上效果最好呢？它在那些具有唯一正确答案的任务中表现最好，比如事实性问答和数学推理等具有明确答案问题。但在开放性任务中可能效果会稍逊一些。