ai在看图说话时不再胡编乱造，彻底告别了过去的“幻觉”时代

新加坡国立大学和北京大学深圳研究生院联手搞出了个叫NoLan的黑科技，这东西能让AI在看图说话时不再胡编乱造，彻底告别了过去的“幻觉”时代。以前AI总爱无中生有，比如明明没看到手提箱，它却偏要加进去，搞得用户体验差不说，还可能在自动驾驶或者看病拍片这些要命的地方埋下隐患。研究团队发现，这种现象主要不是因为看图的那块有问题，反而是因为系统太依赖死记硬背的语言规律，就像学生考试不审题就直接抄模板。NoLan就给AI加了一道双保险，让它在说话前先偷偷做两份卷子：一份是结合了画面的答案，另一份则是纯靠脑子想的。只要把这两份卷子对一对，系统就能自动揪出错题，把那种瞎编的回答给挡住了。实验数据相当亮眼，在POPE那个标准测试里，用了NoLan后，准确率一下子涨了8.38个百分点，F1分数也多了8.78个百分点。关键是回答不仅更准了，内容也变得更丰富流畅。以前让它说说白雪公主和七个小矮人，AI总是乱加些“卡车”之类的东西，现在NoLan一修正，全都是实实在在看到的东西。研究还发现个怪现象，这幻觉问题在写长文章的时候特别爱蹦跶，往往写到后面就开始放飞自我。别看技术这么强，用起来也不费劲。跟以前那种要重头开始训练的法子比起来，NoLan算起来只多了15%的工作量，内存几乎没多占。它在Qwen2-VL这类大模型上表现特别好，越往后越好用。研究团队已经把代码发到GitHub上了，大家都能拿来直接用。从数学的角度看也讲得通，用KL散度一算就知道哪块不靠谱。这玩意儿把系统的不确定性给降低了不少，让人更相信它的回答了。这种直接干预解码的方式比以前调整注意力的办法省事多了。在MathVision那个数学推理的测试里，代数和几何题做得都不错，说明不光能看图说话，复杂的逻辑活儿它也行。这算是给AI怎么处理视觉语言任务指明了一条新路子。以后用户用AI助手看图说事、问问题都会更靠谱，开发者也有了一个拿来就用的好工具，不用大动干戈就能让系统变强。论文已经在arXiv上放出来了，代码马上就传到GitHub上了。