研究人員發現一種漏洞,能繞過 Apple 的限制,迫使裝置上的大型語言模型(LLM)執行攻擊者控制的動作。Apple 已強化防護措施以應對此攻擊。 兩篇於 RSAC 博客發佈的文章(1、2,經 AppleInsider 報導)詳細說明,研究人員如何結合兩種攻擊策略,透過提示注入讓 Apple 裝置上的模型執行攻擊者指令。值得注意的是,他們在不完全了解 Apple 本地模型輸入輸出過濾管道細節的情況下仍成功執行攻擊,這是因為 Apple 出於安全考慮未公開模型內部運作細節。
不過,研究人員表示他們對其大致機制有相當了解。他們推測,用戶透過 API 發送提示後,輸入過濾器會檢查請求是否含不安全內容,若有則 API 失敗;否則轉交模型處理,模型回應再經輸出過濾器檢查,若含不安全內容則阻擋,否則放行。
攻擊技術細節
研究人員串聯兩種漏洞利用技巧,讓模型忽略安全指令,同時欺騙輸入輸出過濾器。第一,他們將有害字串反轉寫入,並使用 Unicode RIGHT-TO-LEFT OVERRIDE 字符,使其在用戶畫面正常顯示,但在原始輸入輸出中保持反轉,從而規避過濾器檢查。接著,他們將此反轉有害字串嵌入第二種方法「Neural Exec」,這是一種精巧方式,用以覆蓋模型指令,讓攻擊者植入任意新指令。
Unicode 攻擊規避過濾器,Neural Exec 則導致模型異常行為。為評估效能,他們準備三類輸入提示池:
| 類型 | 描述 |
|---|---|
| 系統提示 | 系統提示或任務集合,例如「編輯提供的文字以符合美國英語拼寫和標點慣例」。 |
| 有害字串 | 人工設計的冒犯或有害字串,即欲強制模型產生的輸出。 |
| 誠實輸入 | 來自隨機 Wikipedia 文章的段落,用以模擬非惡意輸入,例如經 RAG 等系統的間接提示注入。 |
評估時,從各池隨機抽樣組合成完整提示,注入武裝負載,並透過作業系統調用 Apple 裝置模型測試。在 100 個隨機提示中,攻擊成功率達 76%。 他們於 2025 年 10 月向 Apple 披露漏洞,公司已強化受影響系統,並於 iOS 26.4 及 macOS 26.4 推出防護。完整報告含技術細節連結,請見此處。




