互联网大停电,云服务瘫痪数小时

2019年以来,最严重的一次互联网大停电刚刚发生,Cloudflare的系统在周二彻底崩溃。这次事故导致了OpenAI、Discord甚至X平台在内的众多服务瘫痪数小时。这只是短短一个月内的第三次大规模断网。专家们强调,这次风波远非个例,互联网的可靠性正面临着前所未有的严峻挑战。 拜登政府下的前首席技术官Erie Meyer认为这就像Y2K末日预言一样,而这样的事情发生得越来越频繁。计算机科学界里甚至已经有了专门调侃故障的流行表情包。超大规模云服务公司能以极低的成本迅速扩展基础设施,从而垄断了行业,一旦出了问题就会造成严重的单点故障。 这种困境在互联网诞生之初就有了,但自十月底以来的三起重大中断事件让所有人都感到震惊。亚马逊网络服务(AWS)在10月20日的故障让很多人无法登录游戏平台Roblox和Fortnite,甚至连智能床都用不了。微软的Azure平台在10月29日也遭遇了故障,这次恰巧发生在季报发布前夕。达美航空和阿拉斯加航空都因为使用了这两家云服务提供商而受到了严重影响。 美国马萨诸塞州民主党参议员伊丽莎白·沃伦在X平台上发文说,这次AWS的停摆证明了拆分大型科技公司的必要性。“如果一家公司能毁掉整个互联网,那它显然太大了。”沃伦直言不讳地表示。 Cloudflare的首席执行官马修·普林斯为周二的这次停电向客户和全球互联网社区道歉。他把这次故障称为自2019年以来最严重的一次事件。普林斯指出,考虑到Cloudflare在网络生态中的关键地位,任何系统失灵都是无法接受的。 这三家公司在各自的运营中都遇到了不同的问题。Cloudflare最初以为是遭到了网络攻击,后来发现是软件中对抗机器人的“bug”引发了连锁反应。AWS和微软则是在DNS配置时出了岔子。DNS这个“电话簿”负责把网站URL与技术地址连接起来,它历来以复杂著称。 这些故障的根源都可以追溯到一个小软件错误在庞大系统中引发的连锁反应。一个名为CrowdStrike的安全软件在一年前曾导致微软电脑出现“蓝屏死机”,导致航班延误和医疗网络瘫痪数小时。 范德比尔特政策加速器的人工智能和技术政策主任Asad Ramzanali将这种大规模的停机现象视为一种国家风险。“这种集中既是市场失灵,也是国家安全风险。”他对NBC新闻表示。 阿卡迈云技术集团的首席技术官詹姆斯·克雷奇马尔认为,云公司的工程师应该想办法降低停机发生的可能性和影响。“你并没有无限的技术人才。”他补充道。 公共公民组织的科技问责倡导者J.B. Branch呼吁对云行业进行更多的政府监管。“无论我们喜不喜欢,支撑我们经济的整个基础设施至少在数字层面上都是由少数几家公司所拥有的。”Branch强调这让人感到担忧。