OpenAI 發佈 GPT-5.5 智能指數冠絕前六幻覺率達 86%

OpenAI 發佈新一代大型語言模型 GPT-5.5，並在其官網宣稱，這是迄今最聰明、最直觀易用的模型，亦是計算機上完成工作的下一種方式。此發佈迅速引發業界關注，不僅因其在智能體任務上實現突破，更因多項基準測試中展現的統治力。根據第三方評測機構 Artificial Analysis 公佈的綜合智能指數排行，OpenAI 憑藉 GPT-5.5 系列躋身前六名中獨佔四席，該機構認為「GPT-5.5 讓 OpenAI 重回 AI 領域第一位，打破了與 Anthropic 和 Google 的三方平局。」然而，伴隨高性能一同被曝光的，還有高幻覺率。在 Artificial Analysis 的私有基準測試 AA-Omniscience 中，GPT-5.5 的幻覺率高達 86%，遠高於 Claude Opus 4.7 的 36%。這意味著，當這個目前「最聰明」的 AI 大腦面對不確定或未知問題時，選擇「坦言不知」的概率極低，反而傾向於「自信地虛構」一個答案。

而在需要高可靠性的工作場景中，這種高幻覺率很可能導致分析偏差、決策失誤乃至財務損失。最強的 AI 也是最危險的「說謊者」？面對高幻覺率，GPT-5.5 究竟能否在實際應用中可靠完成複雜知識任務？為回答這些關鍵問題，本文對 GPT-5.5 進行實測，從處理家庭帳本到編寫即時對戰遊戲，測試其應對長上下文、複雜邏輯知識工作與編程實戰能力。此測試不僅關乎單一模型性能，更關乎 AI 技術進入深水區後，如何在擁抱其強大能力同時，應對潛在風險。

知識能力：真正像職場人一樣會幹活

根據官方發佈的基準測試結果，GPT-5.5 在多數核心指標上超越前代 GPT-5.4，在知識工作領域表現尤為突出。在一項涵蓋 44 個職業的 GDPval 測試中，GPT-5.5 取得 84.9% 分數，不僅超過 83.0% 的真實職場人員平均水平，也高於 Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。該測試模擬了金融分析師、市務經理、軟件工程師等多種白領職業的日常工作，要求模型完成資訊整合、分析推理、決策建議與報告生成等綜合性任務。

除此，GPT-5.5 在其他多個實用場景測試中亦表現不俗。在模擬複雜客服對話測試中，無需特別指引即可達到 98.0% 正確率；在讓 AI 像真人一樣操作電腦完成任務的測試中，得分 78.7%；在需要結合圖像、文字符解並調用工具解決問題的測試中，分別拿到 83.2% 和 75.3% 分數。這些成績表明，GPT-5.5 正逐步打通「看、說、做」等一系列能力。以下為 GPT-5.5 在知識工作基準測試的部分規格比較：

測試項目	GPT-5.5	GPT-5.4	Claude Opus 4.7	真人平均
GDPval (44 職業)	84.9%	–	80.3%	83.0%
複雜客服對話	98.0%	–	–	–
電腦操作任務	78.7%	–	–	–
圖像理解	83.2%	–	–	–
工具調用	75.3%	–	–	–

OpenAI 還用實例證明了其生產力價值。其財團團隊用它審核了 24771 份 K-1 稅表，總計 71637 頁文件，並稱這套流程比去年提前兩週完成。這表明 GPT-5.5 能直接融入工作流程、實實在在提升效率的生產力工具。這些能力在真實生活中用起來如何？團隊設計了一個貼近家庭的測試來驗證。給 GPT-5.5 多條格式凌亂的月度開支數據，讓其扮演家庭數據分析師，完成整理數據、計算總支出、分析各支出方式比例、分類統計開支等任務，並最終生成一份給家人看的建議報告。

這個測試場景設計看似簡單，卻很能看出 AI 是否真正「好用」。因為家庭記帳是很多人日常，但記錄往往隨手寫、格式亂，「亂七八糟」的記帳數據要求 AI 不只能處理整齊表格，還得「看懂」手寫式記錄、理解每筆錢是什麼意思，並把相似項目歸一起。而算總帳、分析錢花在哪、給出節省建議，實則對應一套完整的思考過程，GPT-5.5 需要先把資訊理順，再從裡面看出門道、提出可行措施，最終「寫報告」，則要求它會用人能懂、易接受的方式呈現工作。

測試結果顯示，它正確合併了「外賣-午餐」和「外賣-晚餐」，並主動提出「支付自動扣」應統一個計入「支付費」統計，展現出理解雜亂科目和用戶真實意圖的能力。 GPT-5.5 自主整理表格並給出分析。在分析中，它通過計算比例，指出「網購」（衣物、雜貨）類目支出較高，且多為非必需品，因此建議為這類消費設預算，給出的建議很體現可行性。最後生成的報告亦滿意人意，那句「攢點管住網購的小衝動，咱們家的開支就能輕鬆一些」符合「給家人看」的親切要求，語氣親切，建議接地氣。

這個簡單測試，相當於在生活場景中還原了上述 GDPval 測試所考驗的核心能力，目前結果亦表明其專業能力能用到真實生活中。

編程能力：從初級到複雜，它沒添亂

除了在日常知識任務中表現可靠，在編程這類對精準性要求更高的「硬功能」上，GPT-5.5 同樣展現不錯進步。在一項考驗「智能體」的基準測試（Terminal-Bench 2.0）中，它拿到 82.7% 高分。該測試模擬在終端執行一連串複雜操作，就好像讓 AI 自己完成一個多步驟的運維任務。其成績不僅比自家上代（GPT-5.4 的 75.1%）高，也明顯超過競爭對手 Claude Opus 4.7（69.4%）。這表明它在需要記住步驟、自我調試、堅持完成長時任務時，表現更好。其次，在處理超長上下文方面亦有進步。在一項針對 50 萬至 100 萬字符超長文本的檢索測試中，它的得分達到 74.0%，是上代（36.6%）的兩倍還多。這意味著讓它分析一本厚書、瀏覽龐大代碼庫時，它更不易「看漏」或「記混」，找資訊更準、思路也更連貫。而且多項測試結果顯示，在執行相同編程任務時，GPT-5.5 消耗的 token 量顯著少於 GPT-5.4。就連代碼編輯器 Cursor 的聯合創始人 Michael Truell 亦評價說，它比上代更清醒、更有效率，工具更易用，面對複雜長時任務時能堅持更久。簡單來說，在編程這類複雜操作場景下，上述數據表明，GPT-5.5 不只更強，而且更穩、更省資源，適合處理那些步驟多、耗時長的實際開發任務。為驗證其真正編程能力，團隊用一個實體開發任務進行測試，從零開始構建並逐步升級一款連連看遊戲，並硬性規定其必須使用給到的 12 種不同 emoji 表情。

首先，讓 GPT-5.5 生成一個完整可運行的連連看遊戲。這需要它理解開發的文本要求、設計界面、管理遊戲狀態，並自主實現核心的路徑搜尋算法。結果它在半小時內順利完成。 GPT-5.5 生成的連連看小遊戲。接著，團隊提高難度，要求它在遊戲中加入一個「重繪」道具。這道具功能是：玩家使用時，能消耗「連擊」能量，把棋盤上與最後一次消滅相同類型的圖標全部隨機換新一次。

要實現這一點，GPT-5.5 須做兩件事，一是修改遊戲後端的數據規則來支持這新功能；二是確保換新後棋盤佈局仍是「有解」的，不會讓玩家卡關。最終，GPT-5.5 成功寫好了這段代碼。之後，繼續讓它為遊戲加入完整的用戶系統，包括登入、積分記錄和排行榜展示。這一步主要考驗，GPT-5.5 能否將新功能平滑接入手架，同時保持遊戲原有核心玩法和邏輯不被破壞。它再一次順利完成任務，並且在代碼迭代過程中表現得相當俐落，沒有進行過度重構，也沒有引入不必要變化。

GPT-5.5 執行對遊戲細節的調校指令。最後，將難度推至更高階的即時對戰模式，讓兩名玩家能在不同瀏覽器中即時競爭消滅。這其中涉及棋盤狀態同步、操作衝突仲裁和網絡延遲處理等一系列多人在線難題。面對這整合度高、即時性強的複雜挑戰，GPT-5.5 依然做到了準確交付。這個由簡入繁的測試表明，GPT-5.5 在真實編程任務中，既能處理複雜邏輯與架構設計，也能精準響應開發需求，且不隨意重構或引入其他代碼，甚而在要求回退到上版時，亦能穩定恢復到之前狀態。

以下為 GPT-5.5 在編程基準測試的部分規格比較：

測試項目	GPT-5.5	GPT-5.4	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	75.1%	69.4%
超長文本檢索 (50-100萬字符)	74.0%	36.6%	–

高幻覺率：能用，但不敢放手

儘管在實測中表現亮眼，但綜合公開數據來看，GPT-5.5 依然沒有超出市場太大預期，而且存在不可忽視的風險。來看一組對比數據。在 Artificial Analysis 的私有基準測試 AA-Omniscience 中，GPT-5.5 的幻覺率高達 86%，而 Claude Opus 4.7 僅為 36%。這意味著在該測試設定的、專門探測模型知識邊界的場景下，當 GPT-5.5 面對不確定答案時，其「坦言不知」的概率遠低於對手，更傾向生成一個可能錯誤的回覆。需要注意的是，這 86% 並不意味模型在大多數日常問答中會產生幻覺，而是其在觸及知識盲區時的特定行為。一位業內解釋，這可能是因為 GPT-5.5的事實知識覆蓋面更強，但不確定性亦更偏激進，對不確定問題會猜答案。但在將其用於需要高可靠性的任務時，這一指標仍需引發高度警惕。當 GPT-5.5 被部署到「自主工作」場景時，這種高幻覺傾向可能引發風險。例如在數據分析與報告生成任務中，它可能自信引用不存在數據、編造系統統計趨勢，或基於錯誤事實提出決策建議，導致用戶做出偏離實際的商業判斷。而在編程與調試環境，它提供的代碼方案看似合理，卻可能無法運行，甚或隱藏安全漏洞，大幅增後期排查與修復成本。而且，這類幻覺往往以高度自信、邏輯自洽的形式呈現。對缺乏相關專業背景的用戶而言，這種「確定性」輸出極具欺騙性，需要提高警惕。

除了技術層面的隱憂，OpenAI 今次的商業策略亦顯露明顯意圖：先用生成鎖定用戶，再用漲價收割市場。一方面，GPT-5.5 首發時並未同步開放 API，限自家 ChatGPT 和 Codex 使用，初期將用戶鎖定在其應用生態內。另一方面，GPT-5.5 的定價相對上代有明顯上漲。根據官方公佈數據，GPT-5.5 每處理 100 萬 tokens，輸入收費 US$5 (約 HK$39)，輸出收費 US$30 (約 HK$234)。

而上代 GPT-5.4，輸入和輸出價格分別為 US$2.50 (約 HK$20) 和 US$15 (約 HK$117)，即新代價格直接翻倍。如果與當前主要競爭對手比較，Anthropic 最強模型 Opus 4.7 定價為每百萬 tokens 輸入 US$5 (約 HK$39)、輸出 US$25 (約 HK$195)。可以看出，GPT-5.5 在輸入價格上與對手持平，但在輸出價格上則高出 20%。雖然 OpenAI 解釋稱，token 使用效率提升可抵銷價格上漲，使用者實際成本未必增加，但實體性價比仍需業界進一步驗證。

對此模型，資深 Agent 從業者姜曉亦評價道，這次 GPT-5.5 的發佈並未形成斷層領先，不如對社區熱炒的「Spud」模型預期的生產力大提升，但在 agentic 和 coding 能力上依然維持頭部頂峰位置，agentic 能力提升同時也在推動基模廠商提升模型迭代效率，OpenAI 的下一代突破模型（GPT-6）很可能已在路上。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

OpenAI 發佈 GPT-5.5 智能指數冠絕前六幻覺率達 86%

知識能力：真正像職場人一樣會幹活

編程能力：從初級到複雜，它沒添亂

高幻覺率：能用，但不敢放手

Henderson

搜尋文章

知識能力：真正像職場人一樣會幹活

編程能力：從初級到複雜，它沒添亂

高幻覺率：能用，但不敢放手

相關文章

Henderson

搜尋文章