Anthropic 公布 Fable 5 的網絡安全防護措施及監禁框架

Anthropic 官方宣布,Claude Fable 5 已重新部署,並現已全球可用,並藉此機會分享有關兩個方面的更多資訊。

Fable 5 的網絡安全防護措施詳情

首先,Anthropic 提供了有關網絡安全防護措施的詳細資訊,特別是與模型一同推出的安全分類器。這些 AI 系統旨在檢測和阻止危險(或潛在危險)的網絡安全用途。官方表示,這些分類器的目的是「檢測和阻止危險(或潛在危險)的網絡安全用途」。

「我們希望通過這些措施來防止不當使用,並希望在學術界、業界、公民社會和政府之間引發有益的討論。」

Anthropic

此外,Anthropic 還提出了一個初步草稿版本的 AI 監禁嚴重性框架,該框架是與 Glasswing 合作夥伴共同開發的。AI 監禁是指通過不尋常的方式提示 AI 模型繞過其安全防護,從而解鎖我們希望阻止的行為(如危險或潛在危險的網絡安全任務)。

AI 監禁的嚴重性框架

監禁的嚴重性各不相同:有時僅解鎖輕微的不良行為,有時則解鎖範圍廣泛的有害輸出,使模型變得更加危險。官方指出,目前尚無一致的框架來描述特定監禁的嚴重性。這樣的框架將使 AI 開發者能夠以一致的術語與政府進行交流,討論每個監禁所帶來的風險。

「我們的希望是促進學術界、行業、公民社會和政府之間的有益討論,以確定這些界限應該如何劃定。」

Anthropic

Anthropic 還啟動了 HackerOne 計劃,安全研究人員可以提交他們在 Fable 5 中發現的潛在網絡監禁,供官方審查。這些措施的目的是希望能夠建立一個標準,以促進該技術的防禦性使用,同時防止其被濫用。

Fable 5 的分類器與安全措施

在網絡安全領域,AI 的防護措施面臨特別挑戰,因為許多網絡安全能力可以用於良性或有害的目的。Anthropic 表示,他們不打算阻止所有與網絡安全相關的活動,而是訓練安全分類器以區分四類網絡安全用途,從最明顯的潛在危險到最明顯的潛在良性用途。

「我們的分類器旨在阻止所有這些請求,以防止潛在的高風險行為。」

Anthropic

這些分類器是更廣泛的安全措施的一部分,除了分類器外,Anthropic 還使用訪問控制、模型安全訓練和離線監控來增加額外的安全層。官方強調,所有安全能力都是雙重用途,即在某些情況下對攻擊者和防禦者都有幫助。

資料來源:Anthropic 官方公告

十斗
十斗

十斗是 TechRitual Hong Kong 科技記者,擁有計算機科學與工程學位,專注報導 AI 人工智能、Google、機器學習及數據科學領域。持續追蹤全球 AI 產業動態,為讀者提供深入淺出的科技分析。

友情網站:日本語版 / TechNipponThe Base Principle(AI・工程)