这玩意儿叫create的地方,搞了个叫“创造性效用”的综合分,把质量和数量搅合在一起算,顺便

大家都知道要想知道电脑有没有人类那种想象力,实在太难了。纽约大学还有德州大学奥斯汀分校的几个大佬,把2026年3月这份题为CREATE的新基准测试搞出来了,专门用来瞅瞅AI的创造力到底有多强。搞这项研究的人里有Manya Wadhwa、Tiasa Singha Roy、Greg Durrett、Harvey Lederman和Junyi Jessy Li。 大家都头疼的是,怎么才能客观地看出来AI到底有没有真本事,别光会复制粘贴。以前的那些老套测试对现在的AI来说,简直就像小学生做算术题一样简单。而且现在的AI在训练时可能早就看过这些题的答案,搞不好就像学生去参加一场知道答案的考试。 这玩意儿叫CREATE的地方就特别讲究,它要求AI在茫茫的知识网络里去找那种以前没见过的新路。比如你要让女演员Dakota Johnson和演过科幻电影的人搭上关系。这种题不仅得懂很多东西,还得脑筋转得快。 研究团队造了个有931个自然语言问题的大题库,涵盖了从演员到基因、化学到运动员各种乱七八糟的东西。每个问题都让AI系统去找出几条把起点和终点连起来的新鲜路子。这就好比给你个起点城市和目的地,让你设计几条既能到那儿又风景美的旅行线路。 CREATE评估的那一套挺刁钻的,既要管路径的独特性(特异性),还要看路径能不能不一样(多样性)。特异性就是看连接得紧不紧、独不独特;多样性就是别老是生一堆长得差不多的路。他们还搞了个叫“创造性效用”的综合分,把质量和数量搅合在一起算,顺便还考虑了下用户的耐心程度。 测试环节里,他们把GPT系列、Claude系列、Gemini还有一些开源模型全都请来了。结果发现,最厉害的几个模型得分确实高一些。不过哪怕是最强的模型,碰上那种开放性的创造任务还是有点费劲。更让人没想到的是,能做“思维链推理”的家伙并不总是表现最好。这说明光靠堆算力不一定行,得换个思维方式。 他们还试过各种“提示”方法想刺激一下AI,但效果也有限。看来光靠说句“要有创意”也不见得能马上管用。 看那些被评为高质量的路就明白了:真正有创意的连接往往得跨领域跨得挺远,把看起来不搭界的东西捏合在一块儿。 不同AI表现也挺有意思:有的能生一大堆路但良莠不齐;有的比较稳当只生几个但质量高。 最理想的状态应该是数量和质量都有平衡。 特别要注意的是,想让AI更有创造力可能就得牺牲点准确性。反过来死守准确性的话,在创意上又会显得很保守。 这事儿可不光是学术上的小把戏。以后AI在科学研究、画画、做生意这些地方用得越多,咱们越得懂怎么提高它的创造力。CREATE给研究人员提供了一把尺子去衡量AI的发展水平。 虽然现在的AI在CREATE上看起来还行,但跟人类比起来还是差点意思。 这既是个挑战也是个机会。 CREATE的核心观点其实很简单:重点不在于找没找到答案,而是找的过程本身。当我们逼着AI在知识的海洋里捞新鲜货时,其实就是在锻炼它们的想象力。 虽然现在它们还没法完全跟人类拼脑子活,但已经开始表现出让人惊喜的联想力了。 以后技术再发展发展,说不定AI能在那些看起来风马牛不相及的东西里发现意想不到的美。