OpenAI 發佈 GPT‑Realtime‑2 、GPT‑Realtime‑Translate 同 GPT‑Realtime‑Whisper 實時語音模型

OpenAI 近日發佈三款全新實時語音模型，旨在為開發者解鎖新一代語音應用形態。這三款語音智能模型分別專注於推理解答、實時翻譯同實時轉錄等不同場景，標誌住生成式 AI 向多模態同實時互動演進嘅重要一步。官方公佈嘅新系列包括 GPT‑Realtime‑2、GPT‑Realtime‑Translate 同 GPT‑Realtime‑Whisper。三款模型已全面納入 OpenAI 嘅 Realtime API 系統，開發者可以即時整合到應用程式中，創造更自然流暢嘅語音體驗。呢個發佈被視為 OpenAI 在語音智能領域嘅又一重磅佈局，尤其喺當前 AI 持續向實時互動方向發展嘅背景下，將為跨語言通話、會議記錄同直播字幕等應用帶來革命性提升。

其中，GPT‑Realtime‑2 係首款具備 GPT‑5 級推理解答能力嘅語音模型，能夠更好處理複雜請求，並以更自然方式持續推進對話。官方介紹指，呢個模型專為實時語音互動而設計，用戶提問或發出指令時，模型一邊進行推論、一邊保持對話連貫，同時支援調用工具、處理用戶打斷同更正，並根據當下情境作出更適切回應。無論係複雜查詢定即時工具整合，都能讓對話感覺更智能同人性化。相比傳統模型，GPT‑Realtime‑2 喺處理硬性請求同維持自然流暢度上表現突出，有望應用喺智能助手同生產力工具等場景。

第二款 GPT‑Realtime‑Translate 主打實時翻譯功能，支援 70 多種輸入語言轉換至 13 種輸出語言，並盡量跟上說話者嘅語速，實現「同聲同譯」般嘅體驗。呢個特性特別適合跨語言通話、會議或直播等場景，讓全球用戶溝通無障礙。最後，GPT‑Realtime‑Whisper 係一款低延遲實時語音轉文字模型，能夠喺說話者講話嘅同時即時完成轉錄，令產品感覺更快、更敏感同更自然。從直播字幕「邊講邊出」，到跟上討論節奏嘅會議記錄，都係呢款模型嘅主要發力方向，提升咗實時產品嘅整體回應速度。

定價與開發者支援

喺定價方面，GPT‑Realtime‑2 每 100 萬語音輸入 Token 收費 US$32 (約 HK$249)（快取輸入 Token 為 US$0.40 (約 HK$3)，每 100 萬語音輸出 Token 收費 US$64 (約 HK$499)。GPT‑Realtime‑Translate 每分鐘 US$0.03 (約 HK$0)，而 GPT‑Realtime‑Whisper 每分鐘 US$0.02 (約 HK$0)。開發者可透過 Playground 直接測試呢啲新模型；如果已安裝 Codex，只需喺指定提示上點擊提交，即可將 GPT‑Realtime‑2 添加到現有應用，或快速建立新 App。OpenAI 官網亦詳細介紹咗模型技術細節，同部分合作企業已如何喺實際產品中應用。隨住推理解答、翻譯同轉錄能力嘅統整，開發者將能更輕鬆提供「開口就用」嘅語音 AI 體驗，從助手工具到生產力應用，再到無障礙服務，有望引發新一輪探索同創新。

OpenAI 發佈 GPT‑Realtime‑2 、GPT‑Realtime‑Translate 同 GPT‑Realtime‑Whisper 實時語音模型

定價與開發者支援

Henderson

搜尋文章

定價與開發者支援

相關文章

Henderson

搜尋文章