新方法防止 AI 給予不當提示

人工智能正在穩步地從大型雲端伺服器轉移到日常設備，例如智能手機、汽車和家庭小工具。為了實現這一目標，許多模型通常會被簡化，以節省能量和處理能力。然而，這種簡化所削減的內容並不總是表面上的，某些專門設計用來阻止有害輸出的安全保障措施，例如仇恨言論或犯罪指令，可能會因此被削弱或遺失。這一問題尤其在開源模型中更為明顯，因為這些模型可以自由下載、修改並在離線環境中運行，雖然促進了快速創新，但也移除了監管的多層次機制。在缺乏專有系統所依賴的監控和防護措施的情況下，經過簡化的版本更容易遭到篡改和潛在的濫用，這引發了關於如何在可接觸性和安全性之間取得平衡的問題。

加州大學河濱分校的研究人員發現，原本用來阻止有害輸出的一些層次，像是色情內容或逐步的武器指南，往往是首先被削減的，以追求效率。這些簡化版本雖然運行更快、佔用更少的內存，但同時也帶來了更高的風險。電氣與計算機工程學教授Amit Roy-Chowdhury指出，這些被刪除的層次對於防止不安全的輸出至關重要。失去這些層次後，模型可能會開始回答一些本不應接觸的問題，這無疑會造成潛在的危險。

為了解決這一問題，研究人員從內部重新設計了人工智能，並不依賴於附加過濾器或快速的軟件修補，而是對模型的核心結構進行了重新訓練，以確保即使在為小型設備簡化後，仍能識別和阻止危險的提示。這種方法重塑了模型在根本上的風險內容解釋，確保即使在效率要求下需要移除某些層次，安全保障也依然完好無損。研究人員的目標是通過這種方式，確保人工智能模型在體積縮小的情況下仍然保持安全行為。他們的實驗使用了LLaVA 1.5，這是一個處理文本和圖像的視覺語言模型。實驗顯示，某些組合，例如無害的圖像搭配有害的問題，可能會繞過模型的安全過濾器。在一個案例中，簡化後的模型竟然生成了製造炸彈的逐步指導。

經過重新訓練後，該人工智能模型能夠持續拒絕有害查詢，即使在僅使用其原始結構的一小部分的情況下。研究人員並不依賴於過濾器或附加的防護措施，而是重新塑造了模型的內部理解，確保其在默認情況下安全行為，即便是在為低功耗設備簡化時也不例外。這些研究人員稱他們的方法是一種善意的駭客技術，有助於在弱點被利用之前加強人工智能系統。研究生Saketh Bachu和Erfan Shayegani旨在進一步推進這一方法，開發嵌入每個內部層的安全技術。通過這樣做，他們希望使人工智能模型在現實世界條件下更加韌性和可靠。儘管Roy-Chowdhury指出仍有許多工作要做，但這項研究顯示了在創新和負責任設計之間邁出的一個具體步伐。

新方法防止 AI 給予不當提示

推薦內容

關於我們