xAI 發佈 Grok 4.3 更便利快捷 Intelligence Index 53 分落後 GPT-5.5 Claude Opus 4.7

Grok 4.3 是 xAI 一次務實升級:更便利、更快、更像能幹活的助手。但它在硬推理解、穩定性及可信度上,仍落後 GPT-5.5 與 Claude Opus 4.7。xAI 發佈 Grok 4.3,沒有把聲量拉到最大,Elon Musk甚至沒有單獨發推,看起來只是一個過渡版本。https://x.com/elonmusk/status/2045590599206875216 它更像一次安靜的產品換裝:把模型放進 API,把價格打下來,把工具能力補上,再告訴開發者可以從舊版 Grok 遷移過來。

沒有 AGI 轟大騷,也少了Elon Musk式的「即將改變一切」。這反倒讓 Grok 4.3 看起來更真實。

更便利 是這次最直接的產品賣點

對普通消費者來說,Grok 4.3 最重要的變化並非某個單分數漲了多少,而是 AI 助手正變得更便利、更快,也更像一個能代替人完成文件、表格、演示文稿的合規助手。然而,Grok 4.3 的領先程度仍沒有追上 GPT-5.5 和 Claude Opus 4.7。它是一款性價比很強的新模型,也是一款仍有明顯天花板的模型。消費者真正需要關心的,是它在哪些場景能省錢省時間,在哪些場景會因判斷不準、想太多或說太多,反增成本。

它確實變強了 尤其更像一個更會幹活的助手。Artificial Analysis 給 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超過 Claude Sonnet 4.6 和 Muse Spark。這個提升不算小,尤其在 xAI 自家模型線裡,Grok 4.3 已經是最強的一款。

更值得看的是代理任務表現。Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,比 Grok 4.20 0309 v2 的 1179,提升了 321 分。這個單項更接近日常「讓 AI 做事」的場景,例如整理資料、執行複雜日程、處理真實工作流。這對普通用戶有實質意義。讓 AI 幫寫周報、表格、做方案、拆會紀要、生成 PPT,Grok 4.3 的體驗會比前代更完整。

Grok 可以建立演示文稿、文件和電子表格,可以在一個計算機環境裡寫代碼、運行代碼、安裝依賴並產出文件。對不懂代碼的用戶來說,這意味著很多原本需要在 Excel、PowerPoint、瀏覽器之間來回切換的操作,可以被壓縮成一句指令。這也是 AI 消費級產品真正該競爭的地帶——用戶更在意它能不能把一個報表做完,把一份行程計劃排出、把一封語氣得體的郵件寫好。Grok 4.

3 在這部分的進步,是真進步。 Grok 4.3 的價格很有侵略性。它的 API 價格為每百萬輸入 Tokens US$1.25,約 HK$9.75,每百萬輸出 Tokens US$2.50,約 HK$19.5,比 Grok 4.20 輸入價格低約 40%,輸出價格低約 60%。Artificial Analysis 測算,運行整套 Intelligence Index 評測成本約為 US$395,約 HK$3081,比 Grok 4.

20 0309 v2 低約 20%。這會影響消費者,只是一方式沒那麼直接。大多數普通人不會直接調用 API,但他們會用到基於 API 構建的產品。AI 寫作工具、客服機器人、語音助手、教育應用、插件插件,背後都要為模型調用付費。當底層模型價格下調,應用廠商有空間降訂閱費,或在同樣價格下提供更多次數、更長上下文、更複雜任務。 Grok 4.3 還有一個優勢是速度。

Artificial Analysis 的 xAI 模型頁顯示,它是 xAI 目前輸出速度最快的模型之一,約 196 Tokens/s,屬於很快的一款。對語音聊天、實時客服、長文生成和批量內容處理來說,等候時間會直接影響體驗。但速度有一個細節容易被忽視:Grok 4.3 的首 Token 延遲並不高。它會先「想一會兒」,然後快速輸出。長回答裡,這種速度優勢明顯;短對話裡,用戶可能先感受到停頓,再感受到快。

在客服、語音助手、移動端聊天時,這個差異會被放大。 Grok 一直有一個微妙優勢:語氣更像真人。Hacker News 上有人提到,一些英語非母語用戶認為 Grok 在把握文本語氣、正式程式和微妙人情表達上,比其他模型更自如。有人拿它和 ChatGPT、Claude 比,認為 Grok 在非正式閒聊語氣、同事溝通、語音輸入識別上表現更接近真實交流。https://news.

ycombinator.com/item?id=47972447 Grok 能受益於 X 平臺海量口語化表達訓練。它更容易捕捉社交網絡裡的語氣、節奏、鬆散感等;它也能因此承擔社交網絡的諷刺、偏見和表達不規範。對 C 端用戶來說,這種「更自如」的能耐會讓 Grok 在寫訊息、口語轉寫、語音助手、輕辦公場景裡很討喜。它未最領先,但能更像一個願意按你意的語氣說話的助手。

Grok 4.3 比不過 GPT-5.5 和 Claude Opus 4.7 的最大問題,是它看起來已經進入第一梯隊邊緣,卻還沒站到最前面。Grok 4.3 的 Intelligence Index 為 53,GPT-5.5 為 60,Claude Opus 4.7 為 57。這個差距不只排榜上的幾分。對普通消費者來說,它會體現在複雜推理解、代碼調試、長文核查、專業諮詢和多步驟任務的穩定性上。

在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落後 GPT-5.5 xhigh 276 Elo,按標準 Elo 公式,面對 GPT-5.5 的預期勝率約 17%。 它在幻覺控制上也有代價。Grok 4.3 的 AA-Omniscience Accuracy(準確率)提升 8 分,但 Non-Hallucination Rate(非幻覺率)下降 8 分。

這裡的準確率和非幻覺率是不同的,準確率只看你答對了多少,而非幻覺率是看你答不出來的問題裡,有多少是模型老實承認自己不會的——不會卻顫顫有詞,就是所謂的「幻覺」。換言之,Grok 4.3 的知識覆蓋率變高了,但也更容易出現幻覺了。而消費者最怕的情況就是 AI 回答得很流利、很自信、很像那回事,結果關鍵事實錯了。人類已經很長自負地犯錯,機器不該再加入這個常見項目。

這意味著,在醫療、法律、金融、學術和工程等高風險場景裡,Grok 4.3 仍需謹慎使用。它適合幫用戶起草、整理、生成初稿,適合做低風險的輔助工作;涉及最終判斷,GPT-5.5 和 Claude Opus 4.7 仍更穩。 以下為 Grok 4.3 主要規格比較:

指標Grok 4.3Grok 4.20 0309 v2GPT-5.5Claude Opus 4.7
Intelligence Index53496057
GDPval-AA Elo150011791776 (xhigh)
API 輸入價格 (每百萬 Tokens)US$1.25,約 HK$9.75較高約 40%
API 輸出價格 (每百萬 Tokens)US$2.50,約 HK$19.5較高約 60%
輸出速度 (Tokens/s)196

但消費者關心的是結果。Grok 4.3 提供 100 萬 Token 上下文窗口,這對長文件、代碼庫、合併、報表和資料庫很有吸引力。用戶可以丟進去更多材料,讓模型在更完整的資訊環境裡工作。對研究、辦公和創作來說,這是一種實用能力。它還支援文本和圖像輸入,輸出文本,並圍繞工具調用、網頁搜索、X 搜索、代碼執行、文件搜索、RAG 等能力加強。xAI 還推出 Custom Voices、語音代理、TTS 和 STT 等產品,把 Grok 的邊界從文字擴展到語音。

對普通用戶來說,未來的 Grok 可以不只是一個聊天框,而是一個能讀文件、查網頁、寫表格、說話、聽話的多模態助手。 問題在於,功能多不等於體驗好。消費級 AI 的競爭,最終會回到三個簡單標準:少等、少錯、少折騰。Grok 4.3 在「少等」和「少花錢」上明顯前進,在「少錯」上還沒給出足夠強的答案。 Grok 4.3 的準確定位:性價比模型,不是最強模型。Grok 4.

3 最合適的定位,是一款高性價比的工作型模型。它適合高頻內容生成、語氣改寫、長文本初篩、語音產品、客服場景、批量辦公任務、輕量級代理工作流。它也適合那些對成本敏感、對回應速度敏感、對最強推理解沒執念的產品。很多消費者並不需要每次都調用最強模型,就好像不應該只是為了買菜開跑車,除非有別圖。但如果任務要求深度推理解、嚴格事實核查、複雜代碼、數學證明、長期項目記憶和專業判斷,Grok 4.

3 還不該成為第一選擇。GPT-5.5 和 Claude Opus 4.7 仍更適合承擔這些高價值、高風險任務。 這次 xAI 的策略很務實:先把模型做足夠強,再把價格打下來,用速度和工作能力擴大可用場景。它沒有贏下「最領先模型」的頭銜,但能贏走一部分真實使用量。因為市場並不總獎勵最強者,也獎勵夠強、夠快、夠便利的選擇。Grok 4.3 的意義就在這裡。它把 xAI 從一個經常因Elon Musk聲量吸引注意的模型供應商,往更務實的 API 和消費級工具競爭方向推進了一步。

它看起來很好,確實很好;只是還沒好到能讓 GPT-5.5 和 Claude Opus 4.7 緊張。消費者可以期待它降價、提速,讓更多 AI 應用變得便利。也該記住,在需要真正領先和可依的地方,Grok 4.3 仍只是備選。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。