新方法防止 AI 給予不當提示

人工智能正在穩步地從大型雲端伺服器轉移到日常設備,例如智能手機、汽車和家庭小工具。為了實現這一目標,許多模型通常會被簡化,以節省能量和處理能力。然而,這種簡化所削減的內容並不總是表面上的,某些專門設計用來阻止有害輸出的安全保障措施,例如仇恨言論或犯罪指令,可能會因此被削弱或遺失。這一問題尤其在開源模型中更為明顯,因為這些模型可以自由下載、修改並在離線環境中運行,雖然促進了快速創新,但也移除了監管的多層次機制。在缺乏專有系統所依賴的監控和防護措施的情況下,經過簡化的版本更容易遭到篡改和潛在的濫用,這引發了關於如何在可接觸性和安全性之間取得平衡的問題。

加州大學河濱分校的研究人員發現,原本用來阻止有害輸出的一些層次,像是色情內容或逐步的武器指南,往往是首先被削減的,以追求效率。這些簡化版本雖然運行更快、佔用更少的內存,但同時也帶來了更高的風險。電氣與計算機工程學教授Amit Roy-Chowdhury指出,這些被刪除的層次對於防止不安全的輸出至關重要。失去這些層次後,模型可能會開始回答一些本不應接觸的問題,這無疑會造成潛在的危險。

為了解決這一問題,研究人員從內部重新設計了人工智能,並不依賴於附加過濾器或快速的軟件修補,而是對模型的核心結構進行了重新訓練,以確保即使在為小型設備簡化後,仍能識別和阻止危險的提示。這種方法重塑了模型在根本上的風險內容解釋,確保即使在效率要求下需要移除某些層次,安全保障也依然完好無損。研究人員的目標是通過這種方式,確保人工智能模型在體積縮小的情況下仍然保持安全行為。他們的實驗使用了LLaVA 1.5,這是一個處理文本和圖像的視覺語言模型。實驗顯示,某些組合,例如無害的圖像搭配有害的問題,可能會繞過模型的安全過濾器。在一個案例中,簡化後的模型竟然生成了製造炸彈的逐步指導。

經過重新訓練後,該人工智能模型能夠持續拒絕有害查詢,即使在僅使用其原始結構的一小部分的情況下。研究人員並不依賴於過濾器或附加的防護措施,而是重新塑造了模型的內部理解,確保其在默認情況下安全行為,即便是在為低功耗設備簡化時也不例外。這些研究人員稱他們的方法是一種善意的駭客技術,有助於在弱點被利用之前加強人工智能系統。研究生Saketh Bachu和Erfan Shayegani旨在進一步推進這一方法,開發嵌入每個內部層的安全技術。通過這樣做,他們希望使人工智能模型在現實世界條件下更加韌性和可靠。儘管Roy-Chowdhury指出仍有許多工作要做,但這項研究顯示了在創新和負責任設計之間邁出的一個具體步伐。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。