张江创新小镇聚焦智能体原生安全:从提示词注入到工具链投毒的风险加速显现

问题——开源智能体能力普及,攻击面同步扩大 在工具调用更强、任务链更长的智能体应用中,“能做什么”往往也意味着“可能被如何利用”。业内人士指出,OpenClaw等开源框架降低了开发门槛,也让提示词注入、技能组件投毒、越狱诱导、工具链滥用等风险更容易被非高门槛手段触发,进而直接进入企业业务流程和用户终端,安全议题正从“担心可能发生”快速变为“必须解决的问题”。 原因——风险从传统安全外溢至语义推理与算法机制 在张江人工智能创新小镇举办的主题交流中,李光辉表示,传统安全主要围绕系统、网络和数据,而智能体把“理解、推理、规划、执行”串成闭环,风险更多出现在语义层、推理层和执行链路中,仅靠规则过滤、黑名单拦截等手段,难以覆盖不断变化的攻击方式。他结合多类事件指出,面向物理世界的模型攻击、业务平台因风控部署不当引发的安全事故,以及基准测试中不低的越狱成功率,都说明“算法与模型的原生缺陷”需要系统治理,而不是靠打补丁式修复。 影响——一旦穿透安全边界,可能转化为业务与合规的复合风险 与传统应用相比,智能体风险更容易“链式放大”:从文本交互被诱导开始,触发工具调用,更接触文件系统、代码执行、账户权限与外部接口,最终可能演化为数据泄露、服务中断、内容违规、供应链污染,甚至勒索与诈骗等综合性后果。对企业而言,这不仅影响稳定运行与用户信任,也会推高合规与治理成本;对产业生态而言,若缺少统一的验证方法与可复用的防护范式,创新效率会被反复“补洞”消耗。 对策——以对抗训练、边界治理与隔离机制构建原生防护框架 围绕如何应对原生安全挑战,活动提出并讨论了以三项能力为核心的防护思路:一是用高质量攻击数据推动安全对齐与对抗训练,通过持续迭代提升模型对注入、越狱与诱导的抵抗力;二是强化工具调用的边界管理,明确可调用工具、参数范围、权限等级与审计机制,让“能调用”变为“可控地调用”;三是推进文件系统与执行环境隔离,通过沙箱化、最小权限与可回滚机制,降低失陷后的影响范围。涉及的实践已在BraneMatrix的产品体系中展开探索,力求沉淀可复制的工程化方案。 在互动环节,来自研发与安全领域的从业者集中追问“规则过滤是否仍有效”“本地化小模型能否通过功能收缩获得安全”“检测与性能如何平衡”“不同模型的工具能力差异如何适配”等现实问题。李光辉回应称,规则过滤更适合处理已知模式,但智能体风险正越来越多发生在语义与推理层;本地化部署并不天然更安全,关键仍在权限边界与执行路径治理;工具能力差异主要体现在运行时与调用机制,企业平台应通过统一的策略层与审计层实现适配与管控。 前景——以标准、测评与生态共建推动安全能力“前置化” 与会人士认为,智能体安全建设应从“上线后补救”转向“研发期前置”,通过基准测试、红队评估、供应链组件签名与版本管理、可观测与可追责机制等手段,形成从模型训练到部署运行的闭环治理。作为产业交流平台,张江人工智能创新小镇后续还将围绕OpenClaw等主题推出系列活动,进一步聚焦技术实操、场景落地与风险规避,推动安全理念在开发链路中真正落地。

技术迭代越快,安全越需要先一步跟上。这场聚焦算法原生安全的研讨,既给出可落地的技术路径,也提醒行业:只有把安全作为智能体系统的基础能力,创新才能长期稳定推进。随着更多参与者持续投入,中国人工智能产业有望在加速发展的同时,走向更安全、更可靠的演进轨道。