昨日,大部分互聯網服務完全無法使用,許多網站和應用程式的性能也受到影響。最初問題被懷疑與 Cloudflare 網絡有關,但該公司花了一些時間才查明真正原因。Cloudflare 表示,最初它們以為遭遇了大規模的網絡攻擊,但後來發現問題源於一次痛苦的軟件更新錯誤。
如我們昨日報導所示,這次故障影響範圍廣泛,許多應用程式和網站完全無法上線或出現重大故障,原因是流行的 Cloudflare 基礎設施網絡出現問題。Cloudflare 的 CDN 為許多知名應用程序背後的網站提供支持,因此其任何故障都會產生深遠的影響。其中包括社交媒體網站 X(前身為 Twitter),用戶目前無法發佈新帖子或刷新動態。
這一問題似乎影響了全球的網絡用戶。Cloudflare 解釋說,它們觀察到的模式是連接在約五分鐘後被中斷,再恢復,然後再次中斷。這一模式讓公司相信它正遭受所謂的超大規模 DDoS 攻擊,因為技術錯誤通常不會自行修復。
DDoS 攻擊是指惡意行為者向伺服器發送大量請求,利用其所有可用容量,導致真正的用戶無法訪問服務。Cloudflare 認為的進一步證據實際上純屬巧合,因為它們的狀態頁面也出現故障。狀態頁面完全托管在不依賴於 Cloudflare 的基礎設施上。雖然這最終被證實是巧合,但卻使一些診斷問題的團隊成員誤以為攻擊者可能同時針對了他們的系統及狀態頁面。
然而,隨後發現問題的真正原因是 Cloudflare 在更新其機器人管理系統使用的一個文件時出現了錯誤。IT 界有一條不成文的規則:如果遇到奇怪的症狀,通常是權限問題,這次也不例外。問題源於對其數據庫系統權限的更改,導致數據庫將多個條目輸出到用於機器人管理系統的「功能文件」中,這使該文件的大小加倍。
超出預期的功能文件被傳播到組成其網絡的所有機器上。這些機器上運行的軟件用於在網絡中路由流量,它會讀取此功能文件以保持機器人管理系統與不斷變化的威脅保持同步。該軟件對功能文件的大小設置了限制,而這個限制低於其加倍後的大小,導致軟件出現故障。
關於奇怪的五分鐘周期,則有一個簡單的解釋。該文件每五分鐘通過在 ClickHouse 數據庫集群上運行的查詢生成,而這個查詢正在逐步更新以改善權限管理。只有在查詢運行於已更新的集群部分時,才會生成不良數據。因此,每五分鐘都有可能生成一組良好或不良的配置文件,迅速在網絡中傳播。
該公司對其錯誤表示歉意,並形容這是一個痛苦的經歷。他們稱:「我們對對客戶和整個互聯網造成的影響感到抱歉。考慮到 Cloudflare 在互聯網生態系統中的重要性,我們系統的任何故障都是不可接受的。網絡無法路由流量的那段時間對我們團隊的每個成員來說都是深感痛苦的。我們知道今天讓大家失望了。」




