Meta 推出全新 AI 模型 Muse Spark 以單一框架整合文本與影像處理

Meta 最近發佈了名為 Muse Spark 的新人工智能模型,這標誌著其人工智能戰略的重置。這個模型是 Meta Superintelligence Labs 的首次發佈,結合了多模態推理與代理風格的任務執行。此次推出正值主要科技公司競相定義人工智能的下一階段,超越單純的聊天機器人。與早期模型不同,Muse Spark 能夠在同一框架內處理文本、圖像和工具,並引入一個系統,讓多個推理代理可以同時運行。Meta 表示,這種設置能提高複雜問題的解決效率,儘管公司也承認仍然存在一些空白。

Muse Spark 反映了行業向能夠解釋和處理視覺及實際數據系統的更廣泛轉變。該模型能夠分析圖像、解決視覺 STEM 問題,並能在上下文理解的基礎上識別物體。它還支持對視覺輸入的逐步推理,這一特徵被 Meta 描述為視覺思路鏈。這些功能使得更實際的應用場景成為可能,使用者可以要求系統幫助排查家電故障或指導他們通過標註圖像完成任務。該模型還能生成互動內容,包括根據用戶提示製作的簡單遊戲。然而,這些功能在行業內仍然存在不均衡的情況。

在 Muse Spark 中,一個關鍵的新增功能是 Meta 所稱的思考模式(Contemplating mode)。這一特徵可以平行運行多個推理代理,旨在更有效地處理更難的任務。這種方法與競爭對手通過增加推理計算來擴展推理的努力相呼應。Meta 報告稱,Muse Spark 在「人類的最後考試」中得分為 58% 和在「邊境科學研究」任務中的 38%。這些基準測試旨在測量複雜推理問題的表現。然而,這些分數因評估方法不同而難以在模型之間進行比較。公司表示,該系統在提高可靠性的同時,並未減少其回應的多樣性,並且聲稱在訓練數據之外的任務中也有增長。

這次發佈的背後,還有一個更大的基礎設施轉變。Meta 表示,在過去九個月中重建了其訓練管道,專注於模型設計、優化和數據策劃。公司聲稱,這些變化使 Muse Spark 能夠以比早期系統少得多的計算資源達到相似的性能水平。根據 Meta 的說法,該模型在計算需求上比其之前的 Llama 4 Maverick 模型低了十倍以上,若這一數據準確,將有可能降低開發更大人工智能系統的成本。

增強學習仍然是其方法的核心。Meta 報告稱,隨著訓練的擴展,穩定的提升在訓練和評估任務中均有所體現。公司認為,這顯示出比早期方法更可預測的進展,因為早期方法經常面臨不穩定的挑戰。Meta 正在將 Muse Spark 定位為邁向所謂個人超智能的早期步驟。這一構想圍繞著能夠理解用戶環境並提供量身定制幫助的人工智能系統。健康領域是其首個重點,訓練數據是與醫生共同開發的,以改進醫學解釋。

Muse Spark 現已通過 Meta 的人工智能平台提供,並為開發者提供有限的 API 訪問。此次發佈強調了人工智能競爭的變化。公司們不再僅僅是在構建更智能的模型,而是在構建旨在在現實世界中運行的系統,儘管可靠性和驗證仍然是未解的問題。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。