研究員詳述提示注入攻擊繞過 Apple Intelligence 防護

研究人員發現一種漏洞，能繞過 Apple 的限制，迫使裝置上的大型語言模型（LLM）執行攻擊者控制的動作。Apple 已強化防護措施以應對此攻擊。兩篇於 RSAC 博客發佈的文章（1、2，經 AppleInsider 報導）詳細說明，研究人員如何結合兩種攻擊策略，透過提示注入讓 Apple 裝置上的模型執行攻擊者指令。值得注意的是，他們在不完全了解 Apple 本地模型輸入輸出過濾管道細節的情況下仍成功執行攻擊，這是因為 Apple 出於安全考慮未公開模型內部運作細節。

不過，研究人員表示他們對其大致機制有相當了解。他們推測，用戶透過 API 發送提示後，輸入過濾器會檢查請求是否含不安全內容，若有則 API 失敗；否則轉交模型處理，模型回應再經輸出過濾器檢查，若含不安全內容則阻擋，否則放行。

攻擊技術細節

研究人員串聯兩種漏洞利用技巧，讓模型忽略安全指令，同時欺騙輸入輸出過濾器。第一，他們將有害字串反轉寫入，並使用 Unicode RIGHT-TO-LEFT OVERRIDE 字符，使其在用戶畫面正常顯示，但在原始輸入輸出中保持反轉，從而規避過濾器檢查。接著，他們將此反轉有害字串嵌入第二種方法「Neural Exec」，這是一種精巧方式，用以覆蓋模型指令，讓攻擊者植入任意新指令。

Unicode 攻擊規避過濾器，Neural Exec 則導致模型異常行為。為評估效能，他們準備三類輸入提示池：

類型	描述
系統提示	系統提示或任務集合，例如「編輯提供的文字以符合美國英語拼寫和標點慣例」。
有害字串	人工設計的冒犯或有害字串，即欲強制模型產生的輸出。
誠實輸入	來自隨機 Wikipedia 文章的段落，用以模擬非惡意輸入，例如經 RAG 等系統的間接提示注入。

評估時，從各池隨機抽樣組合成完整提示，注入武裝負載，並透過作業系統調用 Apple 裝置模型測試。在 100 個隨機提示中，攻擊成功率達 76%。他們於 2025 年 10 月向 Apple 披露漏洞，公司已強化受影響系統，並於 iOS 26.4 及 macOS 26.4 推出防護。完整報告含技術細節連結，請見此處。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

研究員詳述提示注入攻擊繞過 Apple Intelligence 防護

攻擊技術細節

推薦內容

關於我們