以文檔翻譯聞名的 AI 公司 DeepL 近日發佈一套語音到語音翻譯產品組合,進一步實踐實時語音翻譯市場,涵蓋線上會議、移動與網頁對話,以及一線員工透過定制應用參與的群組溝通等多種場景。同時,DeepL 亦推出面向開發者與企業的 API,支持在其技術上為呼叫中心等服務定制專用語音翻譯方案。 DeepL 首席執行官賈雷克·庫蒂洛夫斯基(Jarek Kutylowski)在接受訪問時表示,在深耕文檔翻譯多年之後,語音是公司「順理成章的下一步」。
他強調,DeepL 在文檔與文檔翻譯上已走得很遠,但在實時語音翻譯領域,「還缺少一款真正出色的產品」,這也是公司決定切入的原由。
挑戰延遲與準確性的平衡
庫蒂洛夫斯基指出,打造實時翻譯產品的核心難點在於如何在降低延遲與保持準確性之間取得平衡。所謂延遲,指從用戶開口說話到翻譯語音播放之間的時間差,在會議與對話場景中,這一差值越小,用戶的互動體驗就越接近「同聲對話」。 此次發佈中,DeepL 針對 Zoom 與 Microsoft Teams 推出插件,讓參與遠程會議者一邊聽各方母語發言,一邊實時聽到翻譯語音,或在螢幕上閱讀實時翻譯字幕。
該計劃目前處於早期測試階段,DeepL 正邀請企業加入等待名單,以便優先試用此功能。此外,公司還提供面向移動端與網頁的對話產品,支持用戶在面對面或遠程場景中進行跨語言溝通。 對於研討會、研討會議等多人的線下或線上群組場景,DeepL 允許參與者透過掃描二維碼加入同一會話,每個人都能在自家設備上接收對應語音的翻譯內容。DeepL 表示,其語音到語音技術還能學習並適配自定義詞彙,例如直行業語、公司名稱以及個人姓名等,以提升在專業場景中的使用效果。
庫蒂洛夫斯基認為,AI 正重塑未來客服行業的形態,一個高品質的翻譯層能幫助企業在缺乏本土語言人才、招聘成本高企的市場中,依舊提供多語言服務支持。在這一願景下,DeepL 希望自家語音技術不僅服務於會議場景,也能成為客服中心與全球化企業的基礎語言基座設施。 在技術路徑上,DeepL 表示目前產品由自研的完整「語音到語音」技術驅動,但現階段仍採用「語音轉文檔—文檔翻譯—文檔轉語音」三步流程。
公司認為,正因長期深耕文檔翻譯,才使其在整體翻譯品質上具備優勢。展望未來,DeepL 計劃開發端到端語音翻譯模型,省略文檔中間日,期許在延遲與自然度上更進一步。 在語音與翻譯領先,DeepL 面對來自多家初創公司的競爭。其中,Sanas 上年從 Quadrille Capital 與 Teleperformance 融資 US$6500 萬,約 HK$5.07 億,主攻實時修正說話者口音的技術,主要面向呼叫中心產業。
總部位於達拉斯 Camb.AI 則面向媒體與娛樂公司,提供語音合成與翻譯服務,幫助客戶在大規模內容中完成配音與本地化。由 Reddit 聯席創始人 Alexis Ohanian 的基金 Seven Seven Six 投資的 Palabra,則打造實時語音翻譯引擎,強調在翻譯過程中盡量保留說話者原聲音特徵,與 DeepL 正在構建的能力形成更直接的競爭關係。
在文檔翻譯市場站穩腳跟之後,DeepL 正試圖透過語音產品擴展自家邊界,將技術延伸到會議協作、客服服務與一線工作場景中。隨著更多企業尋求以 AI 降低跨語言溝通成本,實時語音翻譯有望成為新一輪競爭焦點,而 DeepL 正於此賽道上加速佈局。




