ai在看图说话时不再胡编乱造,彻底告别了过去的“幻觉”时代

新加坡国立大学和北京大学深圳研究生院联手搞出了个叫NoLan的黑科技,这东西能让AI在看图说话时不再胡编乱造,彻底告别了过去的“幻觉”时代。以前AI总爱无中生有,比如明明没看到手提箱,它却偏要加进去,搞得用户体验差不说,还可能在自动驾驶或者看病拍片这些要命的地方埋下隐患。研究团队发现,这种现象主要不是因为看图的那块有问题,反而是因为系统太依赖死记硬背的语言规律,就像学生考试不审题就直接抄模板。NoLan就给AI加了一道双保险,让它在说话前先偷偷做两份卷子:一份是结合了画面的答案,另一份则是纯靠脑子想的。只要把这两份卷子对一对,系统就能自动揪出错题,把那种瞎编的回答给挡住了。 实验数据相当亮眼,在POPE那个标准测试里,用了NoLan后,准确率一下子涨了8.38个百分点,F1分数也多了8.78个百分点。关键是回答不仅更准了,内容也变得更丰富流畅。以前让它说说白雪公主和七个小矮人,AI总是乱加些“卡车”之类的东西,现在NoLan一修正,全都是实实在在看到的东西。研究还发现个怪现象,这幻觉问题在写长文章的时候特别爱蹦跶,往往写到后面就开始放飞自我。 别看技术这么强,用起来也不费劲。跟以前那种要重头开始训练的法子比起来,NoLan算起来只多了15%的工作量,内存几乎没多占。它在Qwen2-VL这类大模型上表现特别好,越往后越好用。研究团队已经把代码发到GitHub上了,大家都能拿来直接用。从数学的角度看也讲得通,用KL散度一算就知道哪块不靠谱。这玩意儿把系统的不确定性给降低了不少,让人更相信它的回答了。 这种直接干预解码的方式比以前调整注意力的办法省事多了。在MathVision那个数学推理的测试里,代数和几何题做得都不错,说明不光能看图说话,复杂的逻辑活儿它也行。这算是给AI怎么处理视觉语言任务指明了一条新路子。以后用户用AI助手看图说事、问问题都会更靠谱,开发者也有了一个拿来就用的好工具,不用大动干戈就能让系统变强。论文已经在arXiv上放出来了,代码马上就传到GitHub上了。