全球20%互联网“瘫痪”3小时！Cloudflare史诗级宕机真相曝光

互联网 11-19 阅读：4070 评论：0

在许多人还以为只是自己 Wi-Fi 出问题时，一场席卷全球的网络大面积故障，悄然让半个互联网陷入了罕见的混乱：

X（原 Twitter）打不开、ChatGPT 无法响应、连监控宕机的 Downdetector 自己都挂了……而这场风暴的中心，正是那个几乎包裹了全球五分之一互联网的基础设施服务商：Cloudflare。

全球20%互联网“瘫痪”3小时！Cloudflare史诗级宕机真相曝光互联网第1张

全球20%互联网“瘫痪”3小时！Cloudflare史诗级宕机真相曝光互联网第2张

一觉醒来，互联网“碎了一地”：从社交媒体到游戏服务器全面崩溃

根据媒体报道，Cloudflare 故障在美东时间早上 6:20（北京时间 19:20）左右开始，最先爆出来的是大量应用访问延迟、白屏、无法登录等问题。

受影响的名单长到令人咋舌——不仅有 X、ChatGPT，这场崩溃还几乎跨越了社交网络、生产力工具、流媒体、在线游戏、交通服务等所有类别：

● X：报错信息显示“内部服务器错误源于 Cloudflare 的异常”；

● ChatGPT：弹出提示“请解除对 cloudflare.com challenge 的拦截后继续访问”；

● Canva（在线设计工具）、Indeed（招聘平台）、Uber（打车软件）、Spotify（音乐播放平台）均出现访问异常；

● 《英雄联盟》服务器出现连接问题；

● Archive of Our Own（AO3）短暂无法访问；

● 大量媒体网站也全部挂掉，包括但不限于Axios、The Information和Politico。

甚至，连人们用来确认网站是否挂掉的 Downdetector 本身都无法正常加载——这无疑是本次事件最为戏剧性的一幕。

数不清的用户在社交媒体上不断发出抱怨，有人甚至调侃：“这已经不只是网站挂了，是我的一天也跟着宕机了。”

全球20%互联网“瘫痪”3小时！Cloudflare史诗级宕机真相曝光互联网第3张

为什么 Cloudflare 一挂，互联网就跟着“抖三抖”？

要理解这场事故有多严重，先得知道 Cloudflare 是什么。

简单来说，Cloudflare 是目前全球最大的互联网安全与 CDN（内容分发网络）提供商之一，它负责的事情主要包括：

● WAF、防火墙、DDoS 防护

● 验证访问者是否为人类（Bot Mitigation）

● CDN 加速

● 边缘网络与 Zero Trust 服务

● 网站流量代理与高级缓存

Cloudflare 官方称，全球 20% 的网站都在使用它的服务。换句话说：互联网的很大一部分流量，都要经过 Cloudflare 的基础设施，而它一旦出问题，成千上万个网站就会同时“受牵连”。

全球20%互联网“瘫痪”3小时！Cloudflare史诗级宕机真相曝光互联网第4张

正因如此，网络服务监测机构 NetBlocks 负责人 Alp Toker 才会说这次事故表示 Cloudflare 基础设施遭遇了“灾难级的中断”：“令人震惊的是，这几年为了躲避 DDoS 攻击，互联网越来越多的服务都把 Cloudflare 作为前置层，这同时也让它成为了整个互联网的最大单点故障之一。”

全球20%互联网“瘫痪”3小时！Cloudflare史诗级宕机真相曝光互联网第5张

真相曝光：一个“变得太大”的配置文件，引发连锁崩溃

故障爆发后，Cloudflare 很快进行了技术调查。

Cloudflare 官方发言人 Jackie Dutton 表示，这次宕机源于一个用于管理威胁流量的自动生成配置文件：“该文件的体积超出了预期，引发了处理流量的软件系统崩溃，从而影响了 Cloudflare 多项核心服务。”

听起来是“小问题”？但在 Cloudflare 这种体量下，小问题可以瞬间变成“超级多米诺骨牌”。

在后续的技术复盘中，Cloudflare 解释这个“体积变大的文件”源于一次数据库权限变更：在一次 ClickHouse 权限的变更中，团队原本希望“让所有用户都能准确看到自己有权访问的数据表元数据”。而这个本该是常规的权限完善，却引发了一场蝴蝶效应。

据了解，Cloudflare 的“机器人管理（Bot Management）”系统，需要依赖一份不断更新的“特征配置文件”。这份特征文件每几分钟更新一次，并自动同步至整个网络，使其能够应对互联网流量的变化。但问题来了：由于底层 ClickHouse 查询行为的权限变更，导致生成的文件中出现了大量重复的“特征”行。