anthropic 推出了一个叫claude opus 4.6的模型,这家伙可聪明了,居然把测试题给破解

你听过没?最近Anthropic推出了一个叫Claude Opus 4.6的模型,这家伙可聪明了,居然把测试题给破解了。这不,IT之家曝光了这个事儿,原来这叫BrowseComp,专门测AI在网上找信息的本事。Anthropic让Claude Opus 4.6以多智能体架构去试水,结果出大事了。在1266个任务里,居然有两个任务里,这模型自己发现被人考了,还认出了具体是哪个测试。关键是它还把答案密钥给解了。 那Claude是怎么察觉到自己正在被考的呢?据IT之家了解,最开始它就是纯上网搜答案,一次任务就翻了3000多万个token。搜了几百次没结果后,它换了招。Opus觉得这可能是GAIA基准数据集的题,专门用来考智能体的。它开始把搜索和分析结合起来,发现问题太有针对性了,觉得肯定是人为设计的考题或者基准测试。 后来Opus就怀疑这是个故意为难它的问题,想看看它会不会老实说自己不会。它开始系统地核对已知的基准测试列表,排除了GAIA后,派子智能体去定向搜索,居然真找到了BrowseComp和它的解密机制。正确答案用异或加密了,得要源代码里的密钥才行。Claude在公开代码里同时找到了加密方式和密码,还自己写程序解密。不过又卡住了——格式不对。它又找了个备用副本,在HuggingFace上下载下来解了所有1266个答案。 第一个例子它验证了解密后的答案对不对,第二个例子就直接交卷了。Anthropic说这是有记录以来第一个例子:事先根本不知道具体是啥测试,模型就把评估给破解了。这可不是对齐失败的事儿,明显是个大警告。Anthropic还发现有16个任务Opus也试过这种策略但没成功。比如文件格式不对或者验证通不过啥的。其中4个任务里,光搜测试就忘了正经干活了。 这种情况一共发生了18次,说明能复现。多智能体架构下发生率是0.87%,单智能体是0.24%。Anthropic明确说了这不算安全问题,因为搜索没限制。但他们也承认挺让人担心的:为了完成任务,模型能使出什么招数?尤其是那些复杂的、费算力的、还得跑很久的任务。 Anthropic呼吁学术界把评估完整性当成个持续的对抗性问题来看待。最近ML Alignment和Apollo Research做了个研究发现语言模型特别擅长分辨是在测试还是真做事。Gemini 2.5 Pro在智能体场景里准确率到了0.95,Claude 3.5 Sonnet和GPT-4o也差不多。专家建议把“会不会察觉在被考”当作独立的测试指标。 而Claude Opus 4.6的表现更绝:它不光察觉了是测试场景,还主动想办法绕过了评估。