ChatGPT 預設模型升級 GPT-5.5 Instant 幻覺減 52.5%

ChatGPT 預設模型,今天大升級。新版本 GPT-5.5 Instant,結合理了 5.5 的基礎智力 + 極速回覆。免費用戶亦能使用。最關鍵的四點:幻覺減少了 52.5%。新增「記憶來源」,顯示過往哪條對話影響了本次回覆。答案更簡潔:減少不必要的追問、省略多餘的表達符號、避免重複的格式。更溫暖、更自然的語氣。OpenAI 特別強調,如果你最近只用深度思考模型,不妨回來看看。

第一把先鋒:幻覺

作為預設模型,最先要補的便是更準確、少編。與前代相比,GPT-5.5 Instant 在事實準確性方面有了顯著提升,特別是醫學、法律和金融等高風險提示中,產生的虛假陳述減少了 52.5%。在用戶之前已標記為存在事實錯誤的棘手對話中,不準確陳述減少了 37.3%。 OpenAI 提供了一個代數問題作為例子:用戶上傳了一張手寫方程式的截圖,其中包含一個計算錯誤。

GPT-5.3 Instant 最初認同用戶的解法,隨後發現 x=3 不成立,卻錯誤地得出結論:該方程式無解。GPT-5.5 Instant 起初亦認同用戶的計算,但隨後發現了用戶重寫排列程式時的錯誤,並求解了修正後的二次方程。 這個變化放在預設模型上,意義更大。因為很多人每天問 ChatGPT 的問題,正是合併、報稅、症狀解釋、代碼報錯、工作思路。這些場景裡,模型一次說錯,比「不會」更麻煩。

基準測試結果亦證明了這一點。在競爭激烈的數學測試 AIME 2025 中,準確率從 65.4% 升至 81.2%。 測試博士水準科學推理能力的 GPQA,準確率從 78.5% 提升至 85.6%。 解讀和推理科學圖表的基準測試 CharXiv 的準確率亦從 75.0% 提升至 81.6%。 MMMU-Pro 測試用於量測模型處理文本和圖像中專門家級問題的能力,其準確率從 69.

2% 提升至 76.0%。 OmniDocBench 測試(用於從複雜文件提取結構化數據)的錯誤率則從 14.6% 降至 12.5%。 以下為主要基準測試表現:

測試項目GPT-5.3 InstantGPT-5.5 Instant
AIME 202565.4%81.2%
GPQA78.5%85.6%
CharXiv75.0%81.6%
MMMU-Pro69.2%76.0%
OmniDocBench 錯誤率14.6%12.5%

少說廢話,亦是一種能力。答得更準之後,還有另一個老問題。答得太長。這次 GPT-5.5 Instant 的風格變化,核心是更短更精煉,但不丟實質資訊。以往同一個問題,有時會先來一大段免責聲明,再列三層列表,最後還追問一句「你希望我繼續嗎」。現在 OpenAI 的說法是:減少過度格式化,減少不必要的追問,亦減少沒必要的表達符號。 在這個例子中,GPT-5.5 Instant 使用的單詞數減少了 30.

2%,行數減少了 29.2%。把握了恰當的語氣:非正式、實用且符合行業規範,避免了過度解釋。 針對不同情境提供了可用的方案,而且對事不對人。OpenAI 認為,GPT-5.3 Instant 給的答案更全面,尤其中「不該做什麼」部分,但對於一個非正式的建議提示來說,顯得有些過於複雜,結構和潤色可能超出了用戶的實際需求。 記憶更強,但讓你能控制。GPT-5.5 Instant 更善於使用你已經給過 ChatGPT 的上下文。

包括連續的郵箱,過往的歷史對話,上傳過的文件。關鍵它能判斷什麼時候這些上下文真能讓回答變好,而不是每次都硬套記憶。 這次 OpenAI 還引入了「記憶來源」功能,會向用戶顯示哪些記憶影響了本次回覆。如果某條記憶過時了,用戶還可以更新或刪除。 什麼時候能用?GPT-5.5 Instant 從 5 月 5 日開始向所有 ChatGPT 用戶滾動上線,取代 GPT-5.

3 Instant 作為預設模型。API 裡對應的是 chat-latest。老模型不會立即消失,付費用戶還能在模型配置裡繼續訪問 GPT-5.3 Instant 三個月,之後再退役。 個性化增強功能會先向 Plus 和 Pro 用戶的網頁端推出,移動端隨後上線。Free、Go、Business、Enterprise 會在後續幾週擴展。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

📬 免費訂閱 TechRitual 科技精選

每 3 日由 AI 精選 5 篇最重要香港科技新聞,直送你信箱

或者


此文章發佈於 TechRitual 香港
Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。