最近,網絡基礎設施巨頭 Cloudflare 也在短短一個月內發生崩潰,導致包括 X、ChatGPT、Spotify、Canva,甚至故障追蹤網站 DownDetector 在內的多個網站,今早幾小時內顯示錯誤信息。這一事件被 Catchpoint 的首席執行官兼聯合創始人 Mehdi Daoudi 認為是企業的一個「警鐘」。
Daoudi 表示:「每個人都把所有的雞蛋放在一個籃子裡,然後當出現問題時卻感到驚訝。企業有責任確保他們擁有冗餘和彈性。」此次故障發生在 Microsoft Azure 和 Amazon Web Services 相繼出現問題的一周內,這導致許多依賴主要供應商運行網站的互聯網大面積癱瘓。Cloudflare 也負責了互聯網中相當大一部分的運行,其內容傳遞網絡能保持網站在線,並提供 DDoS 攻擊防護和 DNS 等多項服務。去年該公司表示,約 20% 的互聯網流量經由 Cloudflare 的網絡處理,並且為《財富》500 強中的 35% 公司提供服務,此外還有「數百萬」其他客戶。
Cloudflare 的快速性能和安全記錄使其成為全球網站的熱門選擇,但此次故障突顯了網絡基礎設施行業的集中化問題。在 AWS 發生故障導致安全消息應用 Signal 停運後,該服務的總裁 Meredith Whittaker 表示,公司別無選擇,只能依賴主要雲服務提供商運行。「整個技術棧幾乎都由 3-4 家業者擁有。」她寫道。
儘管企業對少數網絡基礎設施供應商的依賴日益加深,但最近的一連串故障顯示它們需要有備份計劃。Daoudi 對《The Verge》表示:「故障將會持續出現,而且會變得越來越頻繁,影響範圍也將不斷擴大。問題在於,企業對此有何應對?」
雖然 Microsoft 和 AWS 將其故障歸因於與 DNS 相關的問題(即將網站域名轉換為 IP 地址的系統),但 Cloudflare 的故障則追溯至一個配置文件。Cloudflare 的發言人 Jackie Dutton 表示:「故障的根本原因是一個自動生成的配置文件,用於管理威脅流量。該文件的條目超出了預期的大小,導致了管理多個 Cloudflare 服務的軟件系統崩潰。」
雖然聽起來荒謬,但這樣的文件問題確實可能使大型公司的運行陷入癱瘓。SANS Institute 的 AI 和研究主管 Rob Lee 對《The Verge》表示:「在 Cloudflare 這樣的規模運營基礎設施時,即使是小的偏差也可能引發巨大的後果。」
根據 Lee 的說法,Cloudflare 描述的配置文件「驅動路由安全策略、負載平衡決策,以及流量的全球分配方式。」如果該文件的大小突然增加,「可能會導致解析速度變慢、內存問題、CPU 競爭或系統內的邏輯故障。」
AWS 也將其最近的廣泛故障歸咎於「故障自動化」,這種錯誤必然會再次發生。Daoudi 說:「每次 Cloudflare 打噴嚏時,你都要抱怨嗎?還是你會圍繞這個問題構建解決方案?」










