亚马逊零售业务近日陷入困境;据多家媒体报道,这家全球最大电商平台短短一周内经历了四次严重系统故障,每次都被内部定性为"高影响范围"事件。其中最严重的一次故障持续长达六小时,期间用户无法完成结账、访问账户信息或查看商品价格,对平台的正常运营造成了显著冲击。 面对这诸多突发状况,亚马逊零售技术高管紧急召集工程师团队召开专项会议。原本作为例行工作汇报的"商店技术本周回顾"会议被临时改为深入分析故障原因的专题讨论。该举措充分反映了问题的严重程度和管理层的重视程度。 经过内部调查,故障的根本原因逐渐浮出水面。亚马逊电商服务高级副总裁在给员工的备忘录中指出,最近的系统故障与"生成式AI辅助的变更"直接对应的。这些AI工具原本被设计用于补充或加速生产代码的部署流程,但由于缺乏完善的最佳实践指南和安全防护措施,反而导致了一系列不安全的编程做法。更令人担忧的是,这类问题早在2025年第三季度就已开始困扰亚马逊,说明隐患已经存在相当长的时间。 ,亚马逊的AI相关故障并非仅限于零售业务。其云计算部门在2025年底也经历了多次服务中断。其中一次事故导致成本管理功能宕机长达13小时,这被认为是某个AI驱动的自动化工具在代码变更中引发的严重副作用。这些事件串联起来,勾勒出一个令人警惕的图景:生成式AI在企业关键业务流程中的应用存在系统性的安全风险。 亚马逊的应对策略分为短期和长期两个层面。在短期内——公司将实施临时安全措施——要求资深工程师对初级员工准备的AI辅助代码变更进行严格审查,为涉及零售体验关键部分的系统变更引入"受控摩擦",以此降低风险。同时,公司承诺投资开发更持久的解决方案,包括建立确定性保护机制和智能体防护措施。 这一事件的发生背景值得深入思考。亚马逊正处于大规模基础设施投资时期,2026年财报显示公司计划今年投入2000亿美元用于资本支出。另外,公司在人员成本上却在持续紧缩,自2022年以来已裁员数万人,最近一轮裁员发生在2026年1月,涉及16000名企业员工。这种"重资本、轻人力"的战略调整,在一定程度上加剧了对自动化和AI工具的依赖,而这些工具的成熟度和安全性尚未充分验证。
数字化竞争不仅是效率比拼,更是系统稳定性的考验;自动化程度越高,越需要严格的安全机制和明确的责任划分。亚马逊此次事件表明:技术发展必须与治理能力同步,只有确保可控性,才能实现可持续的创新扩张。