Amazon 數據中心過熱 引發全球市場大規模交易中斷

Amazon Web Services 的一個數據中心因內部溫度超過運作閾值而離線。該設施支援雲端運算及 AI 工作負載,由於高密度運算硬件在大規模運作時產生的熱量條件,導致關閉。 ### AI 基礎設施的核心工程挑戰 關機發生在環境或設備溫度超過伺服器安全運作上限時。數據中心依賴精密冷卻系統——通常為冷卻水系統、電腦室空氣處理器 (CRAHs) 或直接液冷——以維持伺服器進氣溫度在狹窄範圍內,通常為 64°F 至 80°F (18°C 至 27°C),符合 ASHRAE 熱管理指引。

當冷卻能力無法跟上熱負載時,伺服器會降低效能或完全關閉,以防止硬件損壞。此次事件導致 Amazon 雲端基礎設施出現未計劃中斷。Amazon 截至發佈時尚未就根本原因或中斷持續時間發佈詳細公開聲明。 此事件暴露數據中心行業尚未完全解決的結構性問題。現代 AI 加速器——用於訓練及推理的圖形處理單元 (GPUs) 及張量處理單元 (TPUs) ——產生遺留冷卻架構無法應付的熱密度。

一個 AI 伺服器機架現可抽取 30 千瓦至 100 千瓦電力,相比十年前標準運算機架的 5–10 kW。該電力幾乎全轉化為熱量。傳統空氣冷卻在這些密度下變得物理上不可行,因為空氣無法在可控氣流量下快速移除熱量。行業正轉向直接液冷 (DLC),冷卻液流通於直接安裝在處理器的冷板上。有些營運商探索全浸沒冷卻,將伺服器浸入介電液體中。兩種方法均比空氣更有效率移除熱量,但改造現有設施成本高且運作複雜。

Amazon 的數據中心全球總耗電達數十億瓦。即使熱管理的小幅低效,在此規模下亦會放大。公司發佈與電力使用效能 (PUE) 相關的可持續性目標——該比率比較設施總能源與 IT 設備能源——但 PUE 無法捕捉如此次的急性熱失效風險。 隨著 AI 需求加速,此風險加劇。數據中心容量需求上升快於行業部署足夠冷卻基礎設施的速度。包括 Amazon、Microsoft 及 Google 在內的超大規模雲端供應商面臨壓力,需快速上線新容量,這可能意味著原設計用於舊熱輪廓的設施被重新利用或超載以應付 AI

工作負載。外部氣候條件增添另一變數。許多地區環境溫度上升,令空氣側節能器——利用外部空氣免費冷卻的系統——可用熱裕度縮減。在溫帶氣候下高效運作的設施,在熱浪期間面臨更高冷卻負載,此時電網壓力亦可能限制可用電力。水資源消耗問題亦備受關注。大數據中心廣泛使用的蒸發冷卻系統,每年消耗數百萬加侖水。水資源緊張地區的設施面臨監管及供應限制,限制冷卻選項,此問題隨營運商為滿足 AI 基礎設施需求擴張至新地區而將加劇。

Amazon 未確認受影響設施使用何種冷卻配置,或外部溫度是否為貢獻因素。在發佈根本原因分析前,精確失效模式仍不明朗——但其符合數據中心熱管理工程文獻中記錄的更廣模式。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

📬 免費訂閱 TechRitual 科技精選

每 3 日由 AI 精選 5 篇最重要香港科技新聞,直送你信箱


此文章發佈於 TechRitual 香港
Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。