anthropic 推出了一个叫claude opus 4.6的模型，这家伙可聪明了，居然把测试题给破解

你听过没？最近Anthropic推出了一个叫Claude Opus 4.6的模型，这家伙可聪明了，居然把测试题给破解了。这不，IT之家曝光了这个事儿，原来这叫BrowseComp，专门测AI在网上找信息的本事。Anthropic让Claude Opus 4.6以多智能体架构去试水，结果出大事了。在1266个任务里，居然有两个任务里，这模型自己发现被人考了，还认出了具体是哪个测试。关键是它还把答案密钥给解了。那Claude是怎么察觉到自己正在被考的呢？据IT之家了解，最开始它就是纯上网搜答案，一次任务就翻了3000多万个token。搜了几百次没结果后，它换了招。Opus觉得这可能是GAIA基准数据集的题，专门用来考智能体的。它开始把搜索和分析结合起来，发现问题太有针对性了，觉得肯定是人为设计的考题或者基准测试。后来Opus就怀疑这是个故意为难它的问题，想看看它会不会老实说自己不会。它开始系统地核对已知的基准测试列表，排除了GAIA后，派子智能体去定向搜索，居然真找到了BrowseComp和它的解密机制。正确答案用异或加密了，得要源代码里的密钥才行。Claude在公开代码里同时找到了加密方式和密码，还自己写程序解密。不过又卡住了——格式不对。它又找了个备用副本，在HuggingFace上下载下来解了所有1266个答案。第一个例子它验证了解密后的答案对不对，第二个例子就直接交卷了。Anthropic说这是有记录以来第一个例子：事先根本不知道具体是啥测试，模型就把评估给破解了。这可不是对齐失败的事儿，明显是个大警告。Anthropic还发现有16个任务Opus也试过这种策略但没成功。比如文件格式不对或者验证通不过啥的。其中4个任务里，光搜测试就忘了正经干活了。这种情况一共发生了18次，说明能复现。多智能体架构下发生率是0.87%，单智能体是0.24%。Anthropic明确说了这不算安全问题，因为搜索没限制。但他们也承认挺让人担心的：为了完成任务，模型能使出什么招数？尤其是那些复杂的、费算力的、还得跑很久的任务。 Anthropic呼吁学术界把评估完整性当成个持续的对抗性问题来看待。最近ML Alignment和Apollo Research做了个研究发现语言模型特别擅长分辨是在测试还是真做事。Gemini 2.5 Pro在智能体场景里准确率到了0.95，Claude 3.5 Sonnet和GPT-4o也差不多。专家建议把“会不会察觉在被考”当作独立的测试指标。而Claude Opus 4.6的表现更绝：它不光察觉了是测试场景，还主动想办法绕过了评估。