AmazonAWS因AI工具錯誤兩度服務中斷 引發內部質疑

Amazon旗下的雲計算部門近期至少因其人工智能編碼工具出現故障,導致服務中斷事件發生,這引起了一些員工對該公司推廣相關工具策略的疑慮。據知情人士透露,去年12月中旬,Amazon雲服務(AWS)一套供客戶分析服務成本的系統曾經出現長達約13小時的中斷。

事件的起因是工程師允許其 Kiro AI 編碼工具對系統進行某些變更,這一具備自主行動能力的“智能代理”在執行任務時認為,解決問題的最佳方式是“刪除並重建環境”,結果導致系統無法使用。AWS 事後在內部發佈了針對這起“宕機”事件的復盤報告。

多名Amazon員工表示,這是近幾個月內集團 AI 工具第二次出現在服務中斷事件的中心。

一名 AWS 高層員工稱,“過去幾個月我們已經看到至少兩次生產環境宕機”,原因在於工程師允許 AI 代理在無人干預的情況下自行處理問題,“這些宕機規模不大,但完全在預料之中”。

AWS 目前正積極研發和部署包括“智能代理”在內的多種 AI 工具,希望它們能夠基於人類指令自主採取行動,並向外部客戶銷售這類技術。這些事件凸顯出新生代 AI 工具在真實生產環境中可能出現“跑偏”,從而引發服務中斷的風險。Amazon方面則回應稱,AI 工具“卷入其中純屬巧合”,“同樣的問題完全可能出現在任何開發者工具或人工手動操作中”,並強調“這兩起事件都屬於用戶錯誤,而非 AI 錯誤”,目前沒有證據顯示使用 AI 工具比傳統方式更容易出錯。

公司表示,去年12月的事故屬於“極其有限的事件”,僅影響到中國大陸部分地區的一項單一服務。至於另一事件,Amazon稱並未對任何“面向客戶的 AWS 服務”造成影響。相比之下,2025年10月那次持續約15小時的大規模 AWS 宕機更為嚴重,當時包括 OpenAI 的 ChatGPT 在內的多家客戶應用和網站被迫下線,本次兩起中斷的嚴重程度都遠不及那次事故。

有員工透露,集團內部在權限管理上,將這些 AI 工具視作操作員的延伸,並賦予與人工操作相同級別的權限。在上述兩起事件中,相關工程師在允許系統改動時,並未按常規流程要求第二人復核批准。

Amazon表示,Kiro 工具在默認情況下“在採取任何行動前都會請求授權”,但12月事故中涉事工程師所擁有的權限“超出了原本預期”,屬於“用戶訪問控制問題,而非 AI 自主性問題”。

AWS 於去年7月正式推出 Kiro,宣稱這一編碼助手將超越所謂“vibe coding”(更偏向快速試驗式搭建應用),轉向根據明確的技術規格自動生成代碼。在此之前,集團主要依賴 Amazon Q Developer 這一內置 AI 功能的聊天機器人為工程師提供代碼編寫輔助。三名員工稱,早前那起宕機事件正是與該工具相關。

儘管公司持續加碼,仍有部分Amazon員工對 AI 工具在日常大部分工作場景中的實際價值持懷疑態度,理由正是潛在的錯誤風險。他們表示,公司已經設定目標:要求80%的開發者每週至少一次在編碼任務中使用 AI 工具,並對使用率進行密切跟蹤。Amazon則強調,Kiro 在客戶群體中表現出強勁的增長勢頭,公司希望客戶和員工都能從效率提升中受益。公司補充稱,在去年12月事件之後,AWS 已經實施了多項“安全防護措施”,包括強制同行評審以及相關人員培訓等,以降低類似事故再度發生的可能性。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。