这玩意儿叫create的地方，搞了个叫“创造性效用”的综合分，把质量和数量搅合在一起算，顺便

大家都知道要想知道电脑有没有人类那种想象力，实在太难了。纽约大学还有德州大学奥斯汀分校的几个大佬，把2026年3月这份题为CREATE的新基准测试搞出来了，专门用来瞅瞅AI的创造力到底有多强。搞这项研究的人里有Manya Wadhwa、Tiasa Singha Roy、Greg Durrett、Harvey Lederman和Junyi Jessy Li。大家都头疼的是，怎么才能客观地看出来AI到底有没有真本事，别光会复制粘贴。以前的那些老套测试对现在的AI来说，简直就像小学生做算术题一样简单。而且现在的AI在训练时可能早就看过这些题的答案，搞不好就像学生去参加一场知道答案的考试。这玩意儿叫CREATE的地方就特别讲究，它要求AI在茫茫的知识网络里去找那种以前没见过的新路。比如你要让女演员Dakota Johnson和演过科幻电影的人搭上关系。这种题不仅得懂很多东西，还得脑筋转得快。研究团队造了个有931个自然语言问题的大题库，涵盖了从演员到基因、化学到运动员各种乱七八糟的东西。每个问题都让AI系统去找出几条把起点和终点连起来的新鲜路子。这就好比给你个起点城市和目的地，让你设计几条既能到那儿又风景美的旅行线路。 CREATE评估的那一套挺刁钻的，既要管路径的独特性（特异性），还要看路径能不能不一样（多样性）。特异性就是看连接得紧不紧、独不独特；多样性就是别老是生一堆长得差不多的路。他们还搞了个叫“创造性效用”的综合分，把质量和数量搅合在一起算，顺便还考虑了下用户的耐心程度。测试环节里，他们把GPT系列、Claude系列、Gemini还有一些开源模型全都请来了。结果发现，最厉害的几个模型得分确实高一些。不过哪怕是最强的模型，碰上那种开放性的创造任务还是有点费劲。更让人没想到的是，能做“思维链推理”的家伙并不总是表现最好。这说明光靠堆算力不一定行，得换个思维方式。他们还试过各种“提示”方法想刺激一下AI，但效果也有限。看来光靠说句“要有创意”也不见得能马上管用。看那些被评为高质量的路就明白了：真正有创意的连接往往得跨领域跨得挺远，把看起来不搭界的东西捏合在一块儿。不同AI表现也挺有意思：有的能生一大堆路但良莠不齐；有的比较稳当只生几个但质量高。最理想的状态应该是数量和质量都有平衡。特别要注意的是，想让AI更有创造力可能就得牺牲点准确性。反过来死守准确性的话，在创意上又会显得很保守。这事儿可不光是学术上的小把戏。以后AI在科学研究、画画、做生意这些地方用得越多，咱们越得懂怎么提高它的创造力。CREATE给研究人员提供了一把尺子去衡量AI的发展水平。虽然现在的AI在CREATE上看起来还行，但跟人类比起来还是差点意思。这既是个挑战也是个机会。 CREATE的核心观点其实很简单：重点不在于找没找到答案，而是找的过程本身。当我们逼着AI在知识的海洋里捞新鲜货时，其实就是在锻炼它们的想象力。虽然现在它们还没法完全跟人类拼脑子活，但已经开始表现出让人惊喜的联想力了。以后技术再发展发展，说不定AI能在那些看起来风马牛不相及的东西里发现意想不到的美。