Apple 發佈第三代基礎模型 介紹本地與雲端 AI 能力

WWDC26 的主題演講中,Apple 宣佈了其第三代 Apple Foundation Models (AFM),包括五個模型,其中一些是本地模型,有些則是基於雲端的,還有一個運行於 Google 的伺服器上,使用 NVIDIA 的晶片。以下是這些模型的運作方式概述。

背景簡介:當 Apple 在 2024 年首次宣佈其基礎模型時,該系列包括一個擁有約 30 億參數的本地語言模型,以及一個基於伺服器的更大型語言模型,該模型透過 Private Cloud Compute 提供,並運行於 Apple 自家設計的晶片伺服器上。Apple 當時表示,Private Cloud Compute 是一項雄心勃勃的計劃,旨在提供基於雲端的人工智能能力,同時保留用户對本地處理所期待的隱私保障。

因此,將所有內容保留在內部至關重要。Private Cloud Compute 在 Apple 數據中心運行,伺服器由 Apple 自家設計的晶片供電。即使如此,其隱私保障也能被第三方安全研究人員獨立驗證。然而,隨著 Apple 在推進其人工智能願景方面遇到困難,該公司與 Google 合作,利用 Gemini 作為其新人工智能工作的基礎,並在 WWDC26 主題演講中宣佈了這一成果。

Apple 新一代基礎模型概覽

第三代 AFM 包括五個模型:AFM 3 Core 和 AFM 3 Code Advanced 是本地模型,而 AFM Cloud、ADM 3 Cloud (Image) 和 AFM 3 Cloud Pro 則是基於伺服器的模型。ADM 3 Cloud (Image) 中的 D 代表擴散,這是一項我們之前已報導的技術。除了 AFM 3 Cloud Pro,其他所有模型均為在 Apple 自家設計的晶片設備上運行而建。

AFM 3 Cloud Pro 則運行於 Google Cloud 的 NVIDIA GPU 上。這一切的實現得益於 Apple 首次將其 Private Cloud Compute 架構擴展至第三方基礎設施,同時「保持 Apple 強大的安全性和隱私保護」,根據該公司的説法。

至於這些模型本身,Apple 對每一個模型進行了詳細説明:AFM 3 Core 是我們 30 億參數密集模型的下一代,提供更高的質量;AFM 3 Core Advanced 是我們最強大的本地模型,具備原生多模態能力,支持如表達性語音和更高準確度的語音輸入等實用功能。這個 200 億參數的模型採用了稀疏架構,根據請求的需要,隨時啟動 10 至 40 億參數。

AFM 3 Cloud 是我們的伺服器端工作馬,經過優化以實現速度、效率和性能;ADM 3 Cloud (Image) 用於圖像生成和編輯,並解鎖了先進的照片編輯工具,以及全新的 Image Playground 等;AFM 3 Cloud Pro 是我們最強大的伺服器模型,支持最具需求的用例,如代理工具使用和複雜推理。

Apple 的隱私保障與安全設計

在 AFM 3 Core Advanced 和 AFM 3 Cloud Pro 中,特別令人矚目的是 AFM 3 Core Advanced,這個本地模型包含 200 億參數,這是一個不小的成就。大多數面向普通公眾的本地模型通常參數數量僅在低單位數十億之內。為了讓 AFM 3 Core Advanced 運行良好,Apple 採用了稀疏架構,根據提示隨時啟動最多 40 億參數,而不是需要為每個請求保持所有 200 億參數活動的密集架構。

雖然在概念上與專家混合方法相似,但這種選擇性激活依賴於 Apple 發明的一種技術,並在一年前發表的研究《Instruction-Following Pruning for Large Language Models》中詳細説明。

至於 AFM 3 Cloud Pro,這是運行於外部基礎設施的模型。您可以在本週早些時候發表的 Apple 安全博客文章中查看這一擴展的一些技術細節,但最重要的部分是:在這一基礎上,Apple 和 Google 合作建立了超越傳統保密計算部署的能力。我們不僅依賴保密計算技術來減輕利用特權訪問進行的攻擊,包括側信道攻擊。我們將每個組件——從固件到主機和客户操作系統堆棧,再到應用程序代碼——視為我們可信計算基礎的一部分,並需符合我們的可驗證透明性和無特權訪問保證。

為了減輕供應鏈攻擊的風險,我們維護一個可加密驗證的、僅追加的 Google Cloud 硬件賬本,該硬件是 PCC 機隊的一部分。對於可能被濫用以外洩用户數據的組件,我們的軟件驗證根植於至少兩個來自獨立供應商的信任根。即使在部署保密計算時,我們也認為推理堆棧必須從一開始就設計為具備隱私和安全性。Google Cloud 上的 PCC 利用了許多與 Apple 自家晶片上 PCC 相同的架構安全模式,以實現這些層次的保護:每個請求的初始網絡數據解析在其自己的命名空間內的專用進程中進行,共享推理軟件的有效期短,

並且經過驗證的密鑰保存在與外部輸入隔離的專用保密虛擬機中。

在其機器學習研究博客中,Apple 表示所有五個模型「共享一個共同的初步基礎,然後專門針對各自的架構和用例進行調整,增加了如音頻、圖像理解、長上下文推理和高質量視覺生成等多模態能力。」該公司補充説,為了訓練這些模型,使用了「包括公開可用信息、從第三方授權或購買的數據、開源數據、通過專門研究獲得的數據以及合成數據的混合。」Apple 也強調,訓練過程中並未包含用户數據或互動,並且網絡出版商可以選擇退出基礎模型的訓練。

根據 Apple 的説法,其第三代基礎模型經過了廣泛的人類評估,內部評審員根據指令遵循、真實性、表現和圖像理解等類別對反應進行打分。模型與其前身(如果適用)進行評估,以下是一些結果:在一般文本能力的並排人類評估中,AFM 3 Core 和 AFM 3 Cloud 在我們的前一代模型中顯示的偏好反應比例。結果在四個不同的地區組中呈現,以展示國際變體之間的一致表現。

「英語」表示我們的全球英語評估集,而「PFIGSCJK」、「DNNSTV」和「AFIHHMPRTU」則代表我們的其他支持的全球地區。

在英語的圖像理解能力的並排人類評估中,AFM 3 Core 和 AFM 3 Cloud 相較於其 2025 年的前身,顯示了偏好反應比例。在語音輸入任務的人類評估中,AFM 3 Core Advanced 相較於 Apple 現有的生產性語音輸入系統,在七個質量維度上顯示出正面的勝率,且偏好在所有單獨的格式化和理解維度中持續擴展。若想更深入瞭解第三代 Apple Foundation Models,請參閲相關鏈接。

Henderson
Henderson

Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。