ai的幻觉率比原来少了一半

眼下AI聊天能给人快而顺的感觉，但时不时会说些没谱的瞎话——这就是大家常说的幻觉。这事儿在看病、打官司和查资料这些要命的场合，特别容易让人信错话。为了治好这个毛病，Goodfire AI团队想了个新招：不看外面的事实库了，直接把模型自己心里头的想法当成是做奖励的标准。这么一来，犯糊涂的次数就少了58%，而且给这个纠正工作花的力气也缩了90倍之多。以前的语言模型其实挺实在，它并不是真懂事儿，纯粹是凭着以前见的那些文字来瞎蒙下一句的可能性。因为它的目标不是把话讲得绝对准确，所以碰到训练资料里没有的话题或者模棱两可的情况时，它就会信口开河编个听着挺像回事但其实是错的答案。这就导致不管你把模型参数弄得多大、语料库弄得多大，有时候也拦不住它瞎说八道。为了对付这个，研究界要么是在后面加个外部检查员去挑刺，要么就让模型自己学会认错然后改。这就是Goodfire团队这次做的事。这项工作叫做RLFR（基于特征奖励的强化学习），主要分两步走：先用探测器把模型脑袋里的想法（像它对答案有多确定、是不是靠谱这些抽象特征）给读出来，看看哪些回答像是在瞎扯；再把这些读数转成强化学习里的奖励信号，教模型在发现自己拿不准或者可能出错的时候主动撤回话头或者补一句解释。以前这些内部信号也就是拿来做个监测或者给工程师提个醒用的，这次直接把它们用在训练阶段了。这样就有了密集且便宜的监督信号，让AI在写东西的时候更可控了。既然这条路走得通且省钱，是因为模型确实会把那些复杂的高级概念（比如事实性、意图）藏在脑袋里。探测器能把这些概念量化成“信心”指标。好处就是你不用老是求人给你打标签或者去验证东西；每次干预的成本比真实的人工监督低得吓人；到了实际用的时候也能高效筛选结果。他们把这套RLFR管道套在Gemma-3-12B-IT上后发现效果不错：幻觉率比原来少了将近一半58%，而且整体表现也没变差。这说明模型学会了在没把握的时候少说几句或者赶紧改过来。更重要的是因为奖励用的是它自己的想法所以用起来很省资源也不费人工成本这对想搞大规模生成式AI的公司来说非常关键。这事儿有几个亮点：一个是它能自己纠错了不用老看别人眼色行事；另一个是花的钱少了很多大概是以前的九十分之一；还有个就是既解释得清楚又好扩展监管的时候也能看得懂里头的道道。不过现在这方法还不是十全十美的：探测器自己也可能会出错把信号带偏了；把它自己觉得对的就当真也有点风险。所以下一步得想办法让探测器更稳当点校准也得更严格点还得去试更多的模型和任务看看行不行。这对咱们的生活到底有啥影响呢？想想看如果你的智能客服或者学习助手在回答敏感问题时少出一半的错那多好呀效率更高人工复查费也省了大家用着更放心了尤其是在医疗和法律这些危险的地方这种能让AI自己就不胡说八道的技术就是把实验室里的玩具变成真能干活的服务的一大步。未来我们还可以这样做：一是把探测技术和校准做得更棒点别让错误的信号带歪了方向；二是把这招用在更多别的任务上不光是改错别字还能让人话礼貌点别带偏见。总之这项工作给生成式AI添了一把有力的刀告诉我们与其在外面没完没了地查资料不如让机器学会自己查自己改这事儿挺有道理的。以后的智能助理可能不会像人那样磕磕巴巴但会在该谦虚的时候多点认真核查这对大家平时用起来和公司赚钱来说都意味着更可靠的体验了。（本文整理自Goodfire AI团队关于把内部特征当奖励减少AI幻觉的研究成果主要讲了技术方法和对实际生产与社会的影响。）