OpenAI 發佈最新的 o3-pro 模型,提升推理能力

大型語言模型之間的競爭日益激烈,各家公司不斷推出更新更強的版本。OpenAI,作為這一領域的先驅之一,最近發佈了 o3-pro,聲稱這是其迄今為止最強大的研究版本。其前身 o3 於去年推出。

推理模型的不同之處
AI 推理模型與傳統模型相反,因為它們通過逐步解決問題來運作。這使得它們在物理、數學和編程等學科上更具可靠性。

o3-pro 從 6 月 10 日起向 ChatGPT Pro 和 Team 用戶提供,作為 o1-pro 模型的替代品。OpenAI 還表示,企業和教育用戶將在發佈週後獲得該模型的訪問權限。

o3-pro 的使用成本為每百萬個輸入標記 $20 / 約 HK$ 156,每百萬個輸出標記 $80 / 約 HK$ 624。輸入標記是用戶提供給模型的單詞,而輸出標記是模型生成的響應單詞。

評估結果
OpenAI 在變更日誌中指出:“在專家評估中,評審者在每個測試類別中一致偏好 o3-pro,尤其是在科學、教育、編程、商業和寫作幫助等關鍵領域。”評審者還一致認為 o3-pro 在清晰度、全面性、遵循指示和準確性方面的評分更高。

根據 OpenAI 的說法,o3-pro 擁有更好的工具,可以分析文件、搜索網絡,並在利用記憶後個性化響應。不過,該模型的響應時間比 o1-pro 更長。

此外,用戶無法與 o3-pro 進行臨時聊天,OpenAI 將此標記為「技術問題」。與其他 OpenAI 模型相比,該模型也無法生成圖像。

積極的一面是,o3-pro 在 OpenAI 的內部測試中在流行的 AI 基準測試中取得了令人印象深刻的分數。o3-pro 在 AIME 2024 中以 93% 的分數超過了谷歌的頂尖模型 Gemini 2.5 Pro,並在 GPQA Diamond 測試中以 84% 的分數超越了 Anthropic 的 Claude 4 Opus,該測試涉及博士級科學知識。

CEO 的看法
OpenAI 的 CEO Sam Altman 在 X 平台上宣布了 o3-pro 模型的發佈,表達了他的喜悅。

“o3-pro 現在已經向所有 ChatGPT Pro 用戶和 API 推出。它真的很智能!我第一次看到相對於 o3 的勝率時都不敢相信,”他表示。

然而,Altman 也透露,原定於本月發佈的備受期待的開放權重模型將需要更多時間。

“我們將花更多時間來處理我們的開放權重模型,預計會在夏季晚些時候推出,而不是 6 月。我们的研究團隊做了一些意想不到且相當驚人的事情,我們認為這將非常值得等待,但需要更長的時間,”Altman 在星期三的 X 上發文表示。

激烈的競爭
正如之前提到的,大型語言模型的競爭並未顯示出減弱的跡象。谷歌在 5 月底發佈了其視頻模型 Veo 3,而 Claude 最近將其兩個最強大的功能——研究和整合——提供給 Claude Pro 訂閱用戶。

儘管這些更新聽起來令人興奮,但在這一系列華麗發佈背後,仍然存在一個更深層的問題——這些突破中有多少能夠真正經得起時間的考驗?

日本電話卡推介 / 台灣電話卡推介
一㩒即做:香港網速測試 SpeedTest HK


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。