OpenAI 發佈 GPT-Realtime-2 等三款即時語音模型 與博通合作自研 AI 晶片預計 180 億美元

OpenAI 最近推出三款全新音頻模型,包括 GPT-Realtime-2、GPT-Realtime-Translate 同 GPT-Realtime-Whisper,透過 API 擴展即時語音 AI 功能,針對開發者提供更實用嘅語音互動解決方案。公司表示,呢啲模型旨在令語音軟件更適合日常應用,例如駕駛時對話、機場導航或客戶支援,毋須打字即可處理。OpenAI 強調,語音正成為人類使用軟件最自然嘅介面之一。同時,OpenAI 與博通(Broadcom)合作開發自製 AI 晶片,雙方視此為戰略性夥伴關係。據內部備忘錄及參與談判人士透露,原計劃去年公布,但數月前談判陷入僵局,現正推進晶片生產第一階段建設,預計耗資約 180 億美元(約 1,404 億港元),包括 1.3 吉瓦計算能力。

### GPT-Realtime-2:旗艦模型升級
GPT-Realtime-2 係今次發布嘅旗艦模型,具備 GPT-5 級別推理能力,首次支援更複雜請求、處理中斷,並自然延續對話。模型支援即時工具使用,開發者可讓 AI 存取日曆、搜尋系統等,邊講邊解釋如「檢查你嘅日曆」或「即刻查詢」。上下文窗口由 32K 擴至 128K,支持更長對話及複雜任務;故障恢復更順暢,理解行業術語如醫療詞彙及專有名詞。基準測試顯示,GPT-Realtime-2(high)喺 Big Bench Audio 比 GPT-Realtime-1.5 高 15.2%,xhigh 版喺 Audio MultiChallenge 指令跟隨分數升 13.8%。呢啲升級令 OpenAI 與 Google Gemini Live 競爭更激烈,後者擅長快速回應及語言支援,但 OpenAI 重點喺長對話自然度、處理中斷及跟隨講者節奏。

### 多語翻譯與轉錄擴展
GPT-Realtime-Translate 專注即時翻譯,支持 70 多種輸入語言轉 13 種輸出語言,保持講者節奏,適用客戶支援、旅行及跨語溝通。Deutsche Telekom 正開發語音工具,讓客戶用母語講,AI 即時翻譯。GPT-Realtime-Whisper 則聚焦即時轉錄,將語音轉文字,支持串流應用。OpenAI 目標係超越簡單語音助理,發展可邊聽邊推理、翻譯、轉錄及執行動作嘅代理系統,例如 Zillow 嘅語音助理,可從口頭請求搜樓、篩選偏好及預約睇樓。

晶片合作細節方面,代號「Nexus」嘅完整 10 吉瓦項目,晶片生產環節成本高達 1,800 億美元(約 1.404 萬億港元),未計數據中心及其他配套。呢筆融資對 OpenAI 至關重要,公司預計至 2029 年營運資金消耗達 2,000 億美元(約 1.56 萬億港元)。自研晶片有助降低伺服器成本、提升毛利,但談判現處僵局。博通只同意供 40% 晶片產能,方提供融資;晶片將置於博通數據中心,再租予 OpenAI。博通憑數十年數據中心經驗及全球信譽資產,若成將獲豐厚回報,但備忘錄指博通可拒絕,條款已增:若博通未達標,OpenAI 須自尋其他供應商。呢個合作凸顯 OpenAI 硬件自主化野心,同時面臨融資壓力。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

📬 免費訂閱 TechRitual 科技精選

每 3 日由 AI 精選 5 篇最重要香港科技新聞,直送你信箱


此文章發佈於 TechRitual 香港
Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。