OpenAI 強化 AI 網絡安全模型能力應對網絡威脅

在網絡空間中,人工智能(AI)迅速發展,而防禦者則在努力追趕。根據 OpenAI 的說法,其專注於網絡安全的模型正在快速進步,從 2025 年 8 月的 GPT-5 在 CTF(Capture The Flag)中的表現僅為 27%,到 2025 年 11 月的 GPT-5.1-Codex-Max 已急升至 76%。這一增幅顯示了 AI 系統在安全任務方面技術熟練度的迅速提升。該公司預計,未來的模型可能會在其準備框架下達到高能力水平,這意味著這些模型將足夠強大,能夠開發有效的零日漏洞或協助進行複雜的企業入侵。

為了應對這一挑戰,OpenAI 表示正在準備必要的安全措施,將每一個新模型都視為可能達到此門檻,確保進步與強有力的風險控制相伴隨。OpenAI 正在擴大對設計用於支持防禦工作流程的模型的投資,這些工作包括代碼審計和大規模漏洞修補。該公司的目標是為防禦者提供優勢,因為他們往往人數不足且資源匱乏。由於攻擊和防禦的網絡任務依賴相同的知識,OpenAI 採取了深度防禦的方法,而不是依賴於任何單一的安全措施。

OpenAI 強調,必須塑造能力的訪問方式、指導和應用,以確保 AI 加強網絡安全,而不是降低濫用的門檻。該公司指出,這項工作是一項長期承諾,而非一次性的安全努力。他們的目標是隨著模型能力的增強,持續強化防禦能力。

在基礎層面,OpenAI 使用訪問控制、加固基礎設施、出口限制和全面監控等措施。這些系統還支持檢測和響應層,以及內部威脅情報計劃。培訓在此過程中也扮演著關鍵角色。OpenAI 表示,正在教導其前沿模型拒絕或安全地回應可能導致明顯網絡濫用的請求,同時對合法的防禦和教育需求保持幫助。公司範圍內的檢測系統會監控潛在的濫用行為,當活動看起來不安全時,OpenAI 可能會阻止輸出、將提示重定向到更安全的模型,或升級至執法團隊。

OpenAI 還依賴端到端的紅隊測試,外部專家嘗試突破每一層防禦,就像一個堅定且資源豐富的對手,幫助及早識別弱點。除了內部的安全措施,OpenAI 還在建立更廣泛的網絡安全倡議。一個受信訪問計劃將很快允許合格的網絡防禦用戶在受控條件下訪問增強的模型能力。

該公司還在測試 Aardvark,一個具有自主行為的安全研究員,能夠掃描完整的代碼庫以發現漏洞並建議修補方案。OpenAI 表示,Aardvark 已經發現了新穎的 CVE(公共漏洞與暴露)並將為選定的非營利開源項目提供免費支持。為了加強治理,OpenAI 正在成立前沿風險委員會,這是一個由經驗豐富的防禦者組成的顧問小組,將幫助確定負責任的能力與濫用風險之間的界限。

通過前沿模型論壇,OpenAI 正在與其他實驗室合作,建立一個共享的前沿 AI 系統威脅模型。這一努力旨在描繪模型如何被武器化、瓶頸所在,以及行業如何協調防禦。這些倡議共同反映了 OpenAI 的長期使命:確保 AI 的增強力量轉化為防禦者的實際優勢,根植於現實需求,以專家意見為指導,並謹慎部署。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。