东南大学联合企业提出“分布投票”新方法,提升大模型多答案筛选可靠性

问题——多答案生成后“谁更对”成为推理落地瓶颈。近年来,推理大模型在复杂问答、数学与代码等任务中常采用“测试时扩展”策略:对同一问题生成多条推理链或多个候选答案,再通过打分与投票选出最终输出。该做法提高了性能上限,但也带来新难题:模型往往要依赖自身给出的“置信度分数”来裁决,而该分数并不总能反映答案真伪,导致最终选择偏离正确解,影响系统稳定性与可解释性。

这项研究为提升大模型推理可靠性提供了新的思路;其对“置信度分布结构”的刻画,以及围绕筛选、拒绝与层次投票的设计,有助于减少“高分错解”对最终决策的干扰。在数字化转型加速的背景下,如何让机器决策兼顾效率与审慎,这类方法给出了可落地的技术路径。正如研究者所强调的:“真正的智能不在于永不犯错,而在于具备发现并修正错误的能力。”