OpenAI 近日發佈三款全新實時語音模型,旨在為開發者解鎖新一代語音應用形態。這三款語音智能模型分別專注於推理解答、實時翻譯同實時轉錄等不同場景,標誌住生成式 AI 向多模態同實時互動演進嘅重要一步。官方公佈嘅新系列包括 GPT‑Realtime‑2、GPT‑Realtime‑Translate 同 GPT‑Realtime‑Whisper。三款模型已全面納入 OpenAI 嘅 Realtime API 系統,開發者可以即時整合到應用程式中,創造更自然流暢嘅語音體驗。呢個發佈被視為 OpenAI 在語音智能領域嘅又一重磅佈局,尤其喺當前 AI 持續向實時互動方向發展嘅背景下,將為跨語言通話、會議記錄同直播字幕等應用帶來革命性提升。
其中,GPT‑Realtime‑2 係首款具備 GPT‑5 級推理解答能力嘅語音模型,能夠更好處理複雜請求,並以更自然方式持續推進對話。官方介紹指,呢個模型專為實時語音互動而設計,用戶提問或發出指令時,模型一邊進行推論、一邊保持對話連貫,同時支援調用工具、處理用戶打斷同更正,並根據當下情境作出更適切回應。無論係複雜查詢定即時工具整合,都能讓對話感覺更智能同人性化。相比傳統模型,GPT‑Realtime‑2 喺處理硬性請求同維持自然流暢度上表現突出,有望應用喺智能助手同生產力工具等場景。
第二款 GPT‑Realtime‑Translate 主打實時翻譯功能,支援 70 多種輸入語言轉換至 13 種輸出語言,並盡量跟上說話者嘅語速,實現「同聲同譯」般嘅體驗。呢個特性特別適合跨語言通話、會議或直播等場景,讓全球用戶溝通無障礙。最後,GPT‑Realtime‑Whisper 係一款低延遲實時語音轉文字模型,能夠喺說話者講話嘅同時即時完成轉錄,令產品感覺更快、更敏感同更自然。從直播字幕「邊講邊出」,到跟上討論節奏嘅會議記錄,都係呢款模型嘅主要發力方向,提升咗實時產品嘅整體回應速度。
定價與開發者支援
喺定價方面,GPT‑Realtime‑2 每 100 萬語音輸入 Token 收費 US$32(HK$249.6)(快取輸入 Token 為 US$0.40 / HK$3.12),每 100 萬語音輸出 Token 收費 US$64(HK$499.2)。GPT‑Realtime‑Translate 每分鐘 US$0.034(HK$0.265),而 GPT‑Realtime‑Whisper 每分鐘 US$0.017(HK$0.133)。開發者可透過 Playground 直接測試呢啲新模型;如果已安裝 Codex,只需喺指定提示上點擊提交,即可將 GPT‑Realtime‑2 添加到現有應用,或快速建立新 App。OpenAI 官網亦詳細介紹咗模型技術細節,同部分合作企業已如何喺實際產品中應用。隨住推理解答、翻譯同轉錄能力嘅統整,開發者將能更輕鬆提供「開口就用」嘅語音 AI 體驗,從助手工具到生產力應用,再到無障礙服務,有望引發新一輪探索同創新。
📬 免費訂閱 TechRitual 科技精選
每 3 日由 AI 精選 5 篇最重要香港科技新聞,直送你信箱


