OpenAI 發佈新一代大型語言模型 GPT-5.5,並在其官網宣稱,這是迄今最聰明、最直觀易用的模型,亦是計算機上完成工作的下一種方式。此發佈迅速引發業界關注,不僅因其在智能體任務上實現突破,更因多項基準測試中展現的統治力。根據第三方評測機構 Artificial Analysis 公佈的綜合智能指數排行,OpenAI 憑藉 GPT-5.5 系列躋身前六名中獨佔四席,該機構認為「GPT-5.
5 讓 OpenAI 重回 AI 領域第一位,打破了與 Anthropic 和 Google 的三方平局。」然而,伴隨高性能一同被曝光的,還有高幻覺率。在 Artificial Analysis 的私有基準測試 AA-Omniscience 中,GPT-5.5 的幻覺率高達 86%,遠高於 Claude Opus 4.7 的 36%。這意味著,當這個目前「最聰明」的 AI 大腦面對不確定或未知問題時,選擇「坦言不知」的概率極低,反而傾向於「自信地虛構」一個答案。
而在需要高可靠性的工作場景中,這種高幻覺率很可能導致分析偏差、決策失誤乃至財務損失。最強的 AI 也是最危險的「說謊者」?面對高幻覺率,GPT-5.5 究竟能否在實際應用中可靠完成複雜知識任務?為回答這些關鍵問題,本文對 GPT-5.5 進行實測,從處理家庭帳本到編寫即時對戰遊戲,測試其應對長上下文、複雜邏輯知識工作與編程實戰能力。此測試不僅關乎單一模型性能,更關乎 AI 技術進入深水區後,如何在擁抱其強大能力同時,應對潛在風險。
知識能力:真正像職場人一樣會幹活
根據官方發佈的基準測試結果,GPT-5.5 在多數核心指標上超越前代 GPT-5.4,在知識工作領域表現尤為突出。在一項涵蓋 44 個職業的 GDPval 測試中,GPT-5.5 取得 84.9% 分數,不僅超過 83.0% 的真實職場人員平均水平,也高於 Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。該測試模擬了金融分析師、市務經理、軟件工程師等多種白領職業的日常工作,要求模型完成資訊整合、分析推理、決策建議與報告生成等綜合性任務。
除此,GPT-5.5 在其他多個實用場景測試中亦表現不俗。在模擬複雜客服對話測試中,無需特別指引即可達到 98.0% 正確率;在讓 AI 像真人一樣操作電腦完成任務的測試中,得分 78.7%;在需要結合圖像、文字符解並調用工具解決問題的測試中,分別拿到 83.2% 和 75.3% 分數。這些成績表明,GPT-5.5 正逐步打通「看、說、做」等一系列能力。 以下為 GPT-5.
5 在知識工作基準測試的部分規格比較:
| 測試項目 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | 真人平均 |
|---|---|---|---|---|
| GDPval (44 職業) | 84.9% | – | 80.3% | 83.0% |
| 複雜客服對話 | 98.0% | – | – | – |
| 電腦操作任務 | 78.7% | – | – | – |
| 圖像理解 | 83.2% | – | – | – |
| 工具調用 | 75.3% | – | – | – |
OpenAI 還用實例證明了其生產力價值。其財團團隊用它審核了 24771 份 K-1 稅表,總計 71637 頁文件,並稱這套流程比去年提前兩週完成。這表明 GPT-5.5 能直接融入工作流程、實實在在提升效率的生產力工具。這些能力在真實生活中用起來如何?團隊設計了一個貼近家庭的測試來驗證。給 GPT-5.5 多條格式凌亂的月度開支數據,讓其扮演家庭數據分析師,完成整理數據、計算總支出、分析各支出方式比例、分類統計開支等任務,並最終生成一份給家人看的建議報告。
這個測試場景設計看似簡單,卻很能看出 AI 是否真正「好用」。因為家庭記帳是很多人日常,但記錄往往隨手寫、格式亂,「亂七八糟」的記帳數據要求 AI 不只能處理整齊表格,還得「看懂」手寫式記錄、理解每筆錢是什麼意思,並把相似項目歸一起。而算總帳、分析錢花在哪、給出節省建議,實則對應一套完整的思考過程,GPT-5.5 需要先把資訊理順,再從裡面看出門道、提出可行措施,最終「寫報告」,則要求它會用人能懂、易接受的方式呈現工作。
測試結果顯示,它正確合併了「外賣-午餐」和「外賣-晚餐」,並主動提出「支付自動扣」應統一個計入「支付費」統計,展現出理解雜亂科目和用戶真實意圖的能力。 GPT-5.5 自主整理表格並給出分析。在分析中,它通過計算比例,指出「網購」(衣物、雜貨)類目支出較高,且多為非必需品,因此建議為這類消費設預算,給出的建議很體現可行性。最後生成的報告亦滿意人意,那句「攢點管住網購的小衝動,咱們家的開支就能輕鬆一些」符合「給家人看」的親切要求,語氣親切,建議接地氣。
這個簡單測試,相當於在生活場景中還原了上述 GDPval 測試所考驗的核心能力,目前結果亦表明其專業能力能用到真實生活中。
編程能力:從初級到複雜,它沒添亂
除了在日常知識任務中表現可靠,在編程這類對精準性要求更高的「硬功能」上,GPT-5.5 同樣展現不錯進步。在一項考驗「智能體」的基準測試(Terminal-Bench 2.0)中,它拿到 82.7% 高分。該測試模擬在終端執行一連串複雜操作,就好像讓 AI 自己完成一個多步驟的運維任務。其成績不僅比自家上代(GPT-5.4 的 75.1%)高,也明顯超過競爭對手 Claude Opus 4.
7(69.4%)。這表明它在需要記住步驟、自我調試、堅持完成長時任務時,表現更好。其次,在處理超長上下文方面亦有進步。在一項針對 50 萬至 100 萬字符超長文本的檢索測試中,它的得分達到 74.0%,是上代(36.6%)的兩倍還多。這意味著讓它分析一本厚書、瀏覽龐大代碼庫時,它更不易「看漏」或「記混」,找資訊更準、思路也更連貫。而且多項測試結果顯示,在執行相同編程任務時,GPT-5.
5 消耗的 token 量顯著少於 GPT-5.4。就連代碼編輯器 Cursor 的聯合創始人 Michael Truell 亦評價說,它比上代更清醒、更有效率,工具更易用,面對複雜長時任務時能堅持更久。簡單來說,在編程這類複雜操作場景下,上述數據表明,GPT-5.5 不只更強,而且更穩、更省資源,適合處理那些步驟多、耗時長的實際開發任務。 為驗證其真正編程能力,團隊用一個實體開發任務進行測試,從零開始構建並逐步升級一款連連看遊戲,並硬性規定其必須使用給到的 12 種不同 emoji 表情。
首先,讓 GPT-5.5 生成一個完整可運行的連連看遊戲。這需要它理解開發的文本要求、設計界面、管理遊戲狀態,並自主實現核心的路徑搜尋算法。結果它在半小時內順利完成。 GPT-5.5 生成的連連看小遊戲。接著,團隊提高難度,要求它在遊戲中加入一個「重繪」道具。這道具功能是:玩家使用時,能消耗「連擊」能量,把棋盤上與最後一次消滅相同類型的圖標全部隨機換新一次。
要實現這一點,GPT-5.5 須做兩件事,一是修改遊戲後端的數據規則來支持這新功能;二是確保換新後棋盤佈局仍是「有解」的,不會讓玩家卡關。最終,GPT-5.5 成功寫好了這段代碼。 之後,繼續讓它為遊戲加入完整的用戶系統,包括登入、積分記錄和排行榜展示。這一步主要考驗,GPT-5.5 能否將新功能平滑接入手架,同時保持遊戲原有核心玩法和邏輯不被破壞。它再一次順利完成任務,並且在代碼迭代過程中表現得相當俐落,沒有進行過度重構,也沒有引入不必要變化。
GPT-5.5 執行對遊戲細節的調校指令。最後,將難度推至更高階的即時對戰模式,讓兩名玩家能在不同瀏覽器中即時競爭消滅。這其中涉及棋盤狀態同步、操作衝突仲裁和網絡延遲處理等一系列多人在線難題。面對這整合度高、即時性強的複雜挑戰,GPT-5.5 依然做到了準確交付。這個由簡入繁的測試表明,GPT-5.5 在真實編程任務中,既能處理複雜邏輯與架構設計,也能精準響應開發需求,且不隨意重構或引入其他代碼,甚而在要求回退到上版時,亦能穩定恢復到之前狀態。
以下為 GPT-5.5 在編程基準測試的部分規格比較:
| 測試項目 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% |
| 超長文本檢索 (50-100萬字符) | 74.0% | 36.6% | – |
高幻覺率:能用,但不敢放手
儘管在實測中表現亮眼,但綜合公開數據來看,GPT-5.5 依然沒有超出市場太大預期,而且存在不可忽視的風險。來看一組對比數據。在 Artificial Analysis 的私有基準測試 AA-Omniscience 中,GPT-5.5 的幻覺率高達 86%,而 Claude Opus 4.7 僅為 36%。這意味著在該測試設定的、專門探測模型知識邊界的場景下,當 GPT-5.
5 面對不確定答案時,其「坦言不知」的概率遠低於對手,更傾向生成一個可能錯誤的回覆。需要注意的是,這 86% 並不意味模型在大多數日常問答中會產生幻覺,而是其在觸及知識盲區時的特定行為。一位業內解釋,這可能是因為 GPT-5.5的事實知識覆蓋面更強,但不確定性亦更偏激進,對不確定問題會猜答案。但在將其用於需要高可靠性的任務時,這一指標仍需引發高度警惕。當 GPT-5.
5 被部署到「自主工作」場景時,這種高幻覺傾向可能引發風險。例如在數據分析與報告生成任務中,它可能自信引用不存在數據、編造系統統計趨勢,或基於錯誤事實提出決策建議,導致用戶做出偏離實際的商業判斷。而在編程與調試環境,它提供的代碼方案看似合理,卻可能無法運行,甚或隱藏安全漏洞,大幅增後期排查與修復成本。而且,這類幻覺往往以高度自信、邏輯自洽的形式呈現。對缺乏相關專業背景的用戶而言,這種「確定性」輸出極具欺騙性,需要提高警惕。
除了技術層面的隱憂,OpenAI 今次的商業策略亦顯露明顯意圖:先用生成鎖定用戶,再用漲價收割市場。一方面,GPT-5.5 首發時並未同步開放 API,限自家 ChatGPT 和 Codex 使用,初期將用戶鎖定在其應用生態內。另一方面,GPT-5.5 的定價相對上代有明顯上漲。根據官方公佈數據,GPT-5.5 每處理 100 萬 tokens,輸入收費 US$5,約 HK$39,輸出收費 US$30,約 HK$234。
而上代 GPT-5.4,輸入和輸出價格分別為 US$2.5 和 US$15,即新代價格直接翻倍。如果與當前主要競爭對手比較,Anthropic 最強模型 Opus 4.7 定價為每百萬 tokens 輸入 US$5、輸出 US$25。可以看出,GPT-5.5 在輸入價格上與對手持平,但在輸出價格上則高出 20%。雖然 OpenAI 解釋稱,token 使用效率提升可抵銷價格上漲,使用者實際成本未必增加,但實體性價比仍需業界進一步驗證。
對此模型,資深 Agent 從業者姜曉亦評價道,這次 GPT-5.5 的發佈並未形成斷層領先,不如對社區熱炒的「Spud」模型預期的生產力大提升,但在 agentic 和 coding 能力上依然維持頭部頂峰位置,agentic 能力提升同時也在推動基模廠商提升模型迭代效率,OpenAI 的下一代突破模型(GPT-6)很可能已在路上。




