随着人工智能技术快速发展,如何准确评估机器的创造性思维成为全球科研界面临的重要课题。传统创造力评估方法如"另类用途任务"已显不足——当现代智能系统能轻松完成这类基础测试时,其评估价值正逐渐减弱。更值得关注的是——现有测试存在数据泄露风险——智能系统可能已在训练中记忆标准答案,导致评估结果失真。
衡量创造力的关键,不在于给出固定答案,而在于能否在复杂世界中持续发现新的连接,并让这些连接经得起实践检验。CREATE基准的提出,为评估机器创造性能力提供了更贴近实际需求的工具。未来,如何在想象力与可信度之间找到平衡,将决定对应的技术能走多远,以及能在多大程度上安全可靠地服务社会。