Amazon 數據中心過熱引發全球市場大規模交易中斷

Amazon Web Services 的一個數據中心因內部溫度超過運作閾值而離線。該設施支援雲端運算及 AI 工作負載，由於高密度運算硬件在大規模運作時產生的熱量條件，導致關閉。 ### AI 基礎設施的核心工程挑戰關機發生在環境或設備溫度超過伺服器安全運作上限時。數據中心依賴精密冷卻系統——通常為冷卻水系統、電腦室空氣處理器 (CRAHs) 或直接液冷——以維持伺服器進氣溫度在狹窄範圍內，通常為 64°F 至 80°F (18°C 至 27°C)，符合 ASHRAE 熱管理指引。

當冷卻能力無法跟上熱負載時，伺服器會降低效能或完全關閉，以防止硬件損壞。此次事件導致 Amazon 雲端基礎設施出現未計劃中斷。Amazon 截至發佈時尚未就根本原因或中斷持續時間發佈詳細公開聲明。此事件暴露數據中心行業尚未完全解決的結構性問題。現代 AI 加速器——用於訓練及推理的圖形處理單元 (GPUs) 及張量處理單元 (TPUs) ——產生遺留冷卻架構無法應付的熱密度。

一個 AI 伺服器機架現可抽取 30 千瓦至 100 千瓦電力，相比十年前標準運算機架的 5–10 kW。該電力幾乎全轉化為熱量。傳統空氣冷卻在這些密度下變得物理上不可行，因為空氣無法在可控氣流量下快速移除熱量。行業正轉向直接液冷 (DLC)，冷卻液流通於直接安裝在處理器的冷板上。有些營運商探索全浸沒冷卻，將伺服器浸入介電液體中。兩種方法均比空氣更有效率移除熱量，但改造現有設施成本高且運作複雜。

Amazon 的數據中心全球總耗電達數十億瓦。即使熱管理的小幅低效，在此規模下亦會放大。公司發佈與電力使用效能 (PUE) 相關的可持續性目標——該比率比較設施總能源與 IT 設備能源——但 PUE 無法捕捉如此次的急性熱失效風險。隨著 AI 需求加速，此風險加劇。數據中心容量需求上升快於行業部署足夠冷卻基礎設施的速度。包括 Amazon、Microsoft 及 Google 在內的超大規模雲端供應商面臨壓力，需快速上線新容量，這可能意味著原設計用於舊熱輪廓的設施被重新利用或超載以應付 AI

工作負載。外部氣候條件增添另一變數。許多地區環境溫度上升，令空氣側節能器——利用外部空氣免費冷卻的系統——可用熱裕度縮減。在溫帶氣候下高效運作的設施，在熱浪期間面臨更高冷卻負載，此時電網壓力亦可能限制可用電力。水資源消耗問題亦備受關注。大數據中心廣泛使用的蒸發冷卻系統，每年消耗數百萬加侖水。水資源緊張地區的設施面臨監管及供應限制，限制冷卻選項，此問題隨營運商為滿足 AI 基礎設施需求擴張至新地區而將加劇。

Amazon 未確認受影響設施使用何種冷卻配置，或外部溫度是否為貢獻因素。在發佈根本原因分析前，精確失效模式仍不明朗——但其符合數據中心熱管理工程文獻中記錄的更廣模式。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

📬 免費訂閱 TechRitual 科技精選

每 3 日由 AI 精選 5 篇最重要香港科技新聞，直送你信箱

Amazon 數據中心過熱 引發全球市場大規模交易中斷

📬 免費訂閱 TechRitual 科技精選

推薦內容

關於我們

Amazon 數據中心過熱引發全球市場大規模交易中斷