Fastly Outage Exposes Fragility of the Internet

美国的互联网用户一觉醒来,就听到了世界上最著名的网站——包括领先的OTT提供商——在凌晨瘫痪的消息. HBO Max, Hulu, Vimeo, Amazon, Google, Twitter, Spotify, The New York Times, Reddit and The Guardian 主要站点是否受到云计算提供商造成的中断的影响 Fastly.

It has tweeted, and also emailed to Streaming Media, “我们发现了一个服务配置,该配置在我们的全球pop中引发了中断,并禁用了该配置. Our global network is coming back online.”

Continued status updates are available here. [See the end of this article or this Fastly blog post for a June 9 post-morten on the outage—Ed.]

When the outage began Tuesday, Fastly表示,它正在“调查CDN服务对性能的潜在影响,并警告说,随着全球服务的恢复,客户可能会遇到原始负载增加的情况。.”

According to Mark Hendry, 法律公司DWF的数据保护和网络安全主管, 一些受影响的机构试图通过恢复非cdn分发方案来纠正问题.

“However, if this is the case, 在CDN恢复之前,这些网站的用户可以预期他们的体验会比正常慢,” he says. “虽然中断可以被认为是服务可用性问题, 目前尚不清楚受影响组织的底层数据或基础设施是否因该问题而变得脆弱.”

其他人则质疑将如此多的互联网基础设施掌握在少数几家公司手中是否明智, causing widescale disruption when things go wrong.

亚当·史密斯是英国特许IT协会(BCS)的软件测试专家, told the BBC cdn的中断“突显了互联网服务交付中涉及的复杂和耦合组件的生态系统日益增长. 正因为如此,中断越来越多地同时影响多个站点和服务.”

快速运行边缘计算服务,包括Nearline缓存, 去年推出的一项服务,是在无服务器计算环境中构建的首个商业解决方案.

该公司解释说,Nearline缓存允许用户在Fastly的pop附近的第三方云存储中自动填充和存储内容,而不会产生退出成本, 解决长尾内容可能被从缓存中删除的一个非常现实的挑战。”. With Nearline Cache, it says, “you can populate that content back into cache, 从而节省了总体成本,并改善了原点卸载. 此外,它的延迟最小,也不会给客户带来新的工作.”

它的运营似乎使用了瑞典开发商的技术 Varnish Software, whose customers include Hulu, Emirates, and Tesla.


Fastly的客户包括Pinterest、《百家乐软件》和GitHub. Its cloud partners include Google Cloud, AWS and Azure.

It made $291 million in revenue in 2020, up 45% on 2019. While its stock price initially fell on news of the outage, 在本文发表时,它又回到了停机前的价格之上.

Update (June 9): In an update posted to the Fastly site, 工程和基础设施高级副总裁Nick Rockwell将故障归咎于“一个未被发现的软件漏洞”,该漏洞于6月8日浮出水面,当时它是由有效的客户配置更改触发的.  

“We detected the disruption within one minute, then identified and isolated the cause, and disabled the configuration. 在49分钟内,95%的网络正常运行.” 


“Early June 8, 客户推送了一个有效的配置更改,其中包括触发错误的特定情况, which caused 85% of our network to return errors.” 

事件的事后分析将评估fast在软件质量保证和测试过程中没有检测到错误的原因, Rockwell says. 

他重申了公司对其底层平台(WebAssembly Computer@Edge)安全的承诺. 

然后是认错:“尽管有特定的条件引发了这次停电, we should have anticipated it,” he adds. “We provide mission critical services, 我们对任何可能导致服务问题的行为都非常敏感和优先处理. 我们向我们的客户和那些依赖他们的人道歉,并真诚地感谢社区的支持.” 

Ironically, Rockwell was CTO at The New York Times, one of the sites hit by the outage. 

