研究員詳述提示注入攻擊繞過 Apple Intelligence 防護

研究人員發現一種漏洞,能繞過 Apple 的限制,迫使裝置上的大型語言模型(LLM)執行攻擊者控制的動作。Apple 已強化防護措施以應對此攻擊。 兩篇於 RSAC 博客發佈的文章(1、2,經 AppleInsider 報導)詳細說明,研究人員如何結合兩種攻擊策略,透過提示注入讓 Apple 裝置上的模型執行攻擊者指令。值得注意的是,他們在不完全了解 Apple 本地模型輸入輸出過濾管道細節的情況下仍成功執行攻擊,這是因為 Apple 出於安全考慮未公開模型內部運作細節。

不過,研究人員表示他們對其大致機制有相當了解。他們推測,用戶透過 API 發送提示後,輸入過濾器會檢查請求是否含不安全內容,若有則 API 失敗;否則轉交模型處理,模型回應再經輸出過濾器檢查,若含不安全內容則阻擋,否則放行。

攻擊技術細節

研究人員串聯兩種漏洞利用技巧,讓模型忽略安全指令,同時欺騙輸入輸出過濾器。第一,他們將有害字串反轉寫入,並使用 Unicode RIGHT-TO-LEFT OVERRIDE 字符,使其在用戶畫面正常顯示,但在原始輸入輸出中保持反轉,從而規避過濾器檢查。接著,他們將此反轉有害字串嵌入第二種方法「Neural Exec」,這是一種精巧方式,用以覆蓋模型指令,讓攻擊者植入任意新指令。

Unicode 攻擊規避過濾器,Neural Exec 則導致模型異常行為。為評估效能,他們準備三類輸入提示池:

類型描述
系統提示系統提示或任務集合,例如「編輯提供的文字以符合美國英語拼寫和標點慣例」。
有害字串人工設計的冒犯或有害字串,即欲強制模型產生的輸出。
誠實輸入來自隨機 Wikipedia 文章的段落,用以模擬非惡意輸入,例如經 RAG 等系統的間接提示注入。

評估時,從各池隨機抽樣組合成完整提示,注入武裝負載,並透過作業系統調用 Apple 裝置模型測試。在 100 個隨機提示中,攻擊成功率達 76%。 他們於 2025 年 10 月向 Apple 披露漏洞,公司已強化受影響系統,並於 iOS 26.4 及 macOS 26.4 推出防護。完整報告含技術細節連結,請見此處。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。