Anthropic 公布 Fable 5 的網絡安全防護措施及監禁框架

Anthropic 官方宣布，Claude Fable 5 已重新部署，並現已全球可用，並藉此機會分享有關兩個方面的更多資訊。

Fable 5 的網絡安全防護措施詳情

首先，Anthropic 提供了有關網絡安全防護措施的詳細資訊，特別是與模型一同推出的安全分類器。這些 AI 系統旨在檢測和阻止危險（或潛在危險）的網絡安全用途。官方表示，這些分類器的目的是「檢測和阻止危險（或潛在危險）的網絡安全用途」。

「我們希望通過這些措施來防止不當使用，並希望在學術界、業界、公民社會和政府之間引發有益的討論。」
Anthropic

此外，Anthropic 還提出了一個初步草稿版本的 AI 監禁嚴重性框架，該框架是與 Glasswing 合作夥伴共同開發的。AI 監禁是指通過不尋常的方式提示 AI 模型繞過其安全防護，從而解鎖我們希望阻止的行為（如危險或潛在危險的網絡安全任務）。

監禁的嚴重性各不相同：有時僅解鎖輕微的不良行為，有時則解鎖範圍廣泛的有害輸出，使模型變得更加危險。官方指出，目前尚無一致的框架來描述特定監禁的嚴重性。這樣的框架將使 AI 開發者能夠以一致的術語與政府進行交流，討論每個監禁所帶來的風險。

「我們的希望是促進學術界、行業、公民社會和政府之間的有益討論，以確定這些界限應該如何劃定。」
Anthropic

Anthropic 還啟動了 HackerOne 計劃，安全研究人員可以提交他們在 Fable 5 中發現的潛在網絡監禁，供官方審查。這些措施的目的是希望能夠建立一個標準，以促進該技術的防禦性使用，同時防止其被濫用。

在網絡安全領域，AI 的防護措施面臨特別挑戰，因為許多網絡安全能力可以用於良性或有害的目的。Anthropic 表示，他們不打算阻止所有與網絡安全相關的活動，而是訓練安全分類器以區分四類網絡安全用途，從最明顯的潛在危險到最明顯的潛在良性用途。

「我們的分類器旨在阻止所有這些請求，以防止潛在的高風險行為。」
Anthropic

這些分類器是更廣泛的安全措施的一部分，除了分類器外，Anthropic 還使用訪問控制、模型安全訓練和離線監控來增加額外的安全層。官方強調，所有安全能力都是雙重用途，即在某些情況下對攻擊者和防禦者都有幫助。