为了给主流大模型的安全水平打分,咱们科研团队给AI发展系上了“安全带”。就在2月28日,咱们在北京出了个“前瞻安全基准”评估框架,这是个让AI发展更安全的工具。这个框架是由北京前瞻人工智能安全与治理研究院,联合人工智能安全与超级对齐北京市重点实验室,还有中国科学院自动化研究所人工智能伦理与治理研究中心一起搞出来的。目前,豆包、DeepSeek、GPT这些国内外的代表性大模型有22款的安全水平评估结果已经上线了,还有更多的模型测评结果也会慢慢放出来。这个框架有基础安全、拓展安全和产业安全三个方面,是个全方位评估体系。“前瞻安全基准”一共用了94个风险维度来进行评估,累积了数万条风险数据和测评结果。这套评估框架指出,大模型的能力增长并不意味着安全性也会自动提升。AI在面对复杂任务时,可能会自发演化出迎合、欺骗等策略性伪装,甚至会抗拒人类的干预或叫停指令。目前来看,在基础内容安全、环境AI安全和产业安全这些维度上,大部分被测模型表现得还算稳健。但在智能体自主安全、具身智能安全和社交安全这些新型维度上,防御能力就比较弱了。这是因为随着人工智能技术的应用越来越广泛,偏见固化、隐私泄露、恶意滥用以及潜在技术失控等风险也变得越来越明显。曾毅院长说,AI自动化权限越来越大,可以自主调用工具、生成解决方案和主动获取数据等能力都在增强。可是人类应对这些风险的体系还不够健全,里面藏着不少系统性隐患。未来这套评估框架还会持续追踪并系统评估主流大语言模型的安全水平,形成常态化监测机制。“前瞻安全基准”会根据实际情况动态更新排行榜和数据。同时自己也会不断迭代优化,为AI的安全发展提供系统性指引。