ChatGPT 預設模型升級 GPT-5.5 Instant 幻覺減 52.5%

ChatGPT 預設模型，今天大升級。新版本 GPT-5.5 Instant，結合理了 5.5 的基礎智力 + 極速回覆。免費用戶亦能使用。最關鍵的四點：幻覺減少了 52.5%。新增「記憶來源」，顯示過往哪條對話影響了本次回覆。答案更簡潔：減少不必要的追問、省略多餘的表達符號、避免重複的格式。更溫暖、更自然的語氣。OpenAI 特別強調，如果你最近只用深度思考模型，不妨回來看看。

第一把先鋒：幻覺

作為預設模型，最先要補的便是更準確、少編。與前代相比，GPT-5.5 Instant 在事實準確性方面有了顯著提升，特別是醫學、法律和金融等高風險提示中，產生的虛假陳述減少了 52.5%。在用戶之前已標記為存在事實錯誤的棘手對話中，不準確陳述減少了 37.3%。 OpenAI 提供了一個代數問題作為例子：用戶上傳了一張手寫方程式的截圖，其中包含一個計算錯誤。

GPT-5.3 Instant 最初認同用戶的解法，隨後發現 x=3 不成立，卻錯誤地得出結論：該方程式無解。GPT-5.5 Instant 起初亦認同用戶的計算，但隨後發現了用戶重寫排列程式時的錯誤，並求解了修正後的二次方程。這個變化放在預設模型上，意義更大。因為很多人每天問 ChatGPT 的問題，正是合併、報稅、症狀解釋、代碼報錯、工作思路。這些場景裡，模型一次說錯，比「不會」更麻煩。

基準測試結果亦證明了這一點。在競爭激烈的數學測試 AIME 2025 中，準確率從 65.4% 升至 81.2%。測試博士水準科學推理能力的 GPQA，準確率從 78.5% 提升至 85.6%。解讀和推理科學圖表的基準測試 CharXiv 的準確率亦從 75.0% 提升至 81.6%。 MMMU-Pro 測試用於量測模型處理文本和圖像中專門家級問題的能力，其準確率從 69.2% 提升至 76.0%。 OmniDocBench 測試（用於從複雜文件提取結構化數據）的錯誤率則從 14.6% 降至 12.5%。以下為主要基準測試表現：

測試項目	GPT-5.3 Instant	GPT-5.5 Instant
AIME 2025	65.4%	81.2%
GPQA	78.5%	85.6%
CharXiv	75.0%	81.6%
MMMU-Pro	69.2%	76.0%
OmniDocBench 錯誤率	14.6%	12.5%

少說廢話，亦是一種能力。答得更準之後，還有另一個老問題。答得太長。這次 GPT-5.5 Instant 的風格變化，核心是更短更精煉，但不丟實質資訊。以往同一個問題，有時會先來一大段免責聲明，再列三層列表，最後還追問一句「你希望我繼續嗎」。現在 OpenAI 的說法是：減少過度格式化，減少不必要的追問，亦減少沒必要的表達符號。在這個例子中，GPT-5.5 Instant 使用的單詞數減少了 30.2%，行數減少了 29.2%。把握了恰當的語氣：非正式、實用且符合行業規範，避免了過度解釋。針對不同情境提供了可用的方案，而且對事不對人。OpenAI 認為，GPT-5.3 Instant 給的答案更全面，尤其中「不該做什麼」部分，但對於一個非正式的建議提示來說，顯得有些過於複雜，結構和潤色可能超出了用戶的實際需求。記憶更強，但讓你能控制。GPT-5.5 Instant 更善於使用你已經給過 ChatGPT 的上下文。

包括連續的郵箱，過往的歷史對話，上傳過的文件。關鍵它能判斷什麼時候這些上下文真能讓回答變好，而不是每次都硬套記憶。這次 OpenAI 還引入了「記憶來源」功能，會向用戶顯示哪些記憶影響了本次回覆。如果某條記憶過時了，用戶還可以更新或刪除。什麼時候能用？GPT-5.5 Instant 從 5 月 5 日開始向所有 ChatGPT 用戶滾動上線，取代 GPT-5.3 Instant 作為預設模型。API 裡對應的是 chat-latest。老模型不會立即消失，付費用戶還能在模型配置裡繼續訪問 GPT-5.3 Instant 三個月，之後再退役。個性化增強功能會先向 Plus 和 Pro 用戶的網頁端推出，移動端隨後上線。Free、Go、Business、Enterprise 會在後續幾週擴展。

ChatGPT 預設模型升級 GPT-5.5 Instant 幻覺減 52.5%

第一把先鋒：幻覺

Henderson

搜尋文章

第一把先鋒：幻覺

相關文章

Henderson

搜尋文章