张江创新小镇聚焦智能体原生安全：从提示词注入到工具链投毒的风险加速显现

问题——开源智能体能力普及，攻击面同步扩大在工具调用更强、任务链更长的智能体应用中，“能做什么”往往也意味着“可能被如何利用”。业内人士指出，OpenClaw等开源框架降低了开发门槛，也让提示词注入、技能组件投毒、越狱诱导、工具链滥用等风险更容易被非高门槛手段触发，进而直接进入企业业务流程和用户终端，安全议题正从“担心可能发生”快速变为“必须解决的问题”。原因——风险从传统安全外溢至语义推理与算法机制在张江人工智能创新小镇举办的主题交流中，李光辉表示，传统安全主要围绕系统、网络和数据，而智能体把“理解、推理、规划、执行”串成闭环，风险更多出现在语义层、推理层和执行链路中，仅靠规则过滤、黑名单拦截等手段，难以覆盖不断变化的攻击方式。他结合多类事件指出，面向物理世界的模型攻击、业务平台因风控部署不当引发的安全事故，以及基准测试中不低的越狱成功率，都说明“算法与模型的原生缺陷”需要系统治理，而不是靠打补丁式修复。影响——一旦穿透安全边界，可能转化为业务与合规的复合风险与传统应用相比，智能体风险更容易“链式放大”：从文本交互被诱导开始，触发工具调用，更接触文件系统、代码执行、账户权限与外部接口，最终可能演化为数据泄露、服务中断、内容违规、供应链污染，甚至勒索与诈骗等综合性后果。对企业而言，这不仅影响稳定运行与用户信任，也会推高合规与治理成本；对产业生态而言，若缺少统一的验证方法与可复用的防护范式，创新效率会被反复“补洞”消耗。对策——以对抗训练、边界治理与隔离机制构建原生防护框架围绕如何应对原生安全挑战，活动提出并讨论了以三项能力为核心的防护思路：一是用高质量攻击数据推动安全对齐与对抗训练，通过持续迭代提升模型对注入、越狱与诱导的抵抗力；二是强化工具调用的边界管理，明确可调用工具、参数范围、权限等级与审计机制，让“能调用”变为“可控地调用”；三是推进文件系统与执行环境隔离，通过沙箱化、最小权限与可回滚机制，降低失陷后的影响范围。涉及的实践已在BraneMatrix的产品体系中展开探索，力求沉淀可复制的工程化方案。在互动环节，来自研发与安全领域的从业者集中追问“规则过滤是否仍有效”“本地化小模型能否通过功能收缩获得安全”“检测与性能如何平衡”“不同模型的工具能力差异如何适配”等现实问题。李光辉回应称，规则过滤更适合处理已知模式，但智能体风险正越来越多发生在语义与推理层；本地化部署并不天然更安全，关键仍在权限边界与执行路径治理；工具能力差异主要体现在运行时与调用机制，企业平台应通过统一的策略层与审计层实现适配与管控。前景——以标准、测评与生态共建推动安全能力“前置化” 与会人士认为，智能体安全建设应从“上线后补救”转向“研发期前置”，通过基准测试、红队评估、供应链组件签名与版本管理、可观测与可追责机制等手段，形成从模型训练到部署运行的闭环治理。作为产业交流平台，张江人工智能创新小镇后续还将围绕OpenClaw等主题推出系列活动，进一步聚焦技术实操、场景落地与风险规避，推动安全理念在开发链路中真正落地。

技术迭代越快，安全越需要先一步跟上。这场聚焦算法原生安全的研讨，既给出可落地的技术路径，也提醒行业：只有把安全作为智能体系统的基础能力，创新才能长期稳定推进。随着更多参与者持续投入，中国人工智能产业有望在加速发展的同时，走向更安全、更可靠的演进轨道。