OpenAI 正在向所有 ChatGPT 用戶和開發者推出其新一代旗艦模型 GPT-5。
首席執行官 Sam Altman 表示,GPT-5 與 OpenAI 之前的模型相比,具有顯著的進步。他將其比作「我不想再回到的事物」,就像第一款擁有 Retina 顯示屏的 iPhone。
OpenAI 指出,GPT-5 智能度更高、速度更快,並且更不容易給出不準確的回答。Altman 在最近的一次新聞發布會上提到:「GPT-3 感覺就像與一名高中生交談。你可以問它問題,也許會得到正確的答案,也可能得到一些瘋狂的回應。GPT-4 感覺像是在與一名大學生交談。GPT-5 是第一次真正感覺像是在與一位博士級的專家交流。」
儘管 ChatGPT 現在每週用戶接近 7 億,但 OpenAI 一段時間內未能推出行業領先的前沿模型。如今,該公司認為 GPT-5 將使其重新回到領導地位。Altman 表示:「這是世界上編碼能力最強的模型。這是世界上寫作能力最強的模型,也是世界上在醫療方面表現最佳的模型,還有許多其他領域。」
GPT-5 的一個顯著特徵是,它在 ChatGPT 中以單一模型的形式呈現,而不是常規模型和單獨的推理模型。背後,GPT-5 使用 OpenAI 開發的路由器,能夠自動切換到推理版本,以處理更複雜的查詢,或者在用戶說「思考一下」時切換。(Altman 稱之前的模型選擇界面為「非常混亂的局面」。)
ChatGPT 的負責人 Nick Turley 表示:「這個模型的感覺非常好。我認為人們將真正感受到這一點,尤其是那些沒有花時間思考模型的普通人。」
OpenAI 現在立即向所有 ChatGPT 用戶提供 GPT-5。然而,對於免費用戶,存在一個未公開的提示限制,超過限制後,模型路由器將退回到一個較弱的「迷你」版本。開發者通過 OpenAI 的 API 訪問 GPT-5 時,該模型將以三種不同價格點的版本提供:GPT-5、GPT-5 mini 和 GPT-5 nano。
OpenAI 還為 ChatGPT 添加了四個個性主題,以自定義其回應方式:「懷疑論者」、「機器人」、「聆聽者」和「書呆子」。用戶還能夠為個別聊天線程更改顏色。
Altman 預測,GPT-5 的編碼能力將開創一個他所稱的「按需軟件」時代。在 OpenAI 的測試中,該模型在以下基準上表現優於其他模型:SWE-Bench、SWE-Lancer 和 Aider Polyglot。
在新聞發布會上,OpenAI 的後訓練負責人 Yann Dubois 使用 GPT-5 生成了一個學習法語的互動遊戲網站。在幾秒鐘內,GPT-5 寫出了數百行代碼並顯示了網站的前端。他在 Zoom 上簡單點擊了一下,所有功能似乎都正常運作。
根據模型的安全研究負責人 Alex Beutel 的說法,OpenAI 對 GPT-5 進行了「超過五千小時」的測試,以了解其安全風險。重點在於「確保模型不會對用戶說謊」。GPT-5 的回答比 OpenAI 的 o3 推理模型有更少的幻覺,但對於大型語言模型而言,自信地撒謊仍然是一個固有的問題。
當模型開始像代理一樣完成任務時,問題會更加複雜,不過 OpenAI 表示,GPT-5 在更可靠地處理多步任務方面表現更佳。Beutel 說:「過去,我們看到模型聲稱能夠完成它實際上並未完成的任務。這是一個問題。」
GPT-5 將為以前拒絕回答的提示提供 OpenAI 所稱的「安全完成」。Beutel 解釋道:「如果有人問,’點燃某種特定材料需要多少能量?’,這可能是對手試圖繞過安全保護並造成傷害,或者可能是一名學生在詢問科學問題以了解該材料的物理特性。這對於模型回應的最佳方式帶來了真正的挑戰。」
在安全完成中,GPT-5「試圖在保持安全的約束範圍內提供盡可能有幫助的答案」,Beutel 說。「模型將僅部分遵從,通常保持在無法實際造成傷害的高層次信息上。」
OpenAI 表示,GPT-5 在承認無法完成任務或準確回答問題方面也更為出色,該公司希望這有助於提升用戶對其的信任。關於訓練 GPT-5 所使用的具體數據,公司並未透露任何信息。
OpenAI 的使命是開發通用人工智能(AGI)。Altman 表示,GPT-5 更接近這一目標,即使行業已經開始構建所謂的「超智能」。
Altman 說:「我有點厭惡 AGI 這個術語,因為現在每個人都用它來指代稍微不同的東西。但這無疑是朝著真正有能力的模型邁出的一個重要步驟。這顯然是一個通用智能的模型。」
不過,他表示 GPT-5 仍然「缺少一些相當重要的東西」。
他補充道:「這並不是一個在部署後能夠持續學習新事物的模型,而這在我看來應該是 AGI 的一部分。」