在 2025 年,人工智能影像生成模型取得了重大進展,而 OpenAI 正在將這股動能推進至今年的最後階段。該公司於週二發佈了最新的影像生成器 GPT-Image Model 1.5,承諾提供更快的性能、更強的指令遵循能力及更精確的編輯工具。新模型立即向所有全球 ChatGPT 用戶開放,並通過 OpenAI 的 API 以 GPT-Image-1.5 命名。OpenAI 還在 ChatGPT 的側邊欄中推出了專門的影像創作空間,配備預設樣式和流行設計。此次更新標誌著從簡單的基於聊天的影像提示轉向更以視覺為主的工作流程。
許多人初次體驗 ChatGPT 時會將文字提示轉換為圖像,OpenAI 應用部門 CEO Fidji Simo 在博客中寫道,這是一種神奇的方式來展示這項技術的潛力,但聊天介面最初並不為此而設計。OpenAI 表示,GPT-Image 1.5 的運行速度比其前代提升至四倍。該公司還聲稱,該模型在指令遵循方面表現得更為緊密,尤其在反覆編輯過程中。用戶現在可以添加或移除物體、更改視覺樣式、調整服裝,並在不重新生成整個圖像的情況下精細調整特定區域。
這種控制水平解決了生成影像工具的一個長期弱點,這些工具往往會重新加工場景,而不是進行針對性的更改。Simo 表示,創建和編輯圖像是一種不同的任務,應該有一個專為視覺設計的空間。OpenAI 還表示,該模型在圖像內生成的文字更具可讀性。文字渲染一直是影像生成器的挑戰,包括 OpenAI 早期的模型。初步測試圖像顯示出改進,但實際測試將決定結果的一致性。
除了模型本身,OpenAI 還在重新塑造用戶在 ChatGPT 中與影像的互動方式。新的側邊欄入口點更像是一個創意工作室,通過流行的提示和預設濾鏡提供靈感。Simo 表示,新的影像查看和編輯界面使得創建符合用戶願景的圖像變得更容易,或從流行提示和預設濾鏡中獲得靈感。OpenAI 計劃更廣泛地擴展 ChatGPT 的視覺元素,搜索結果可能很快會包括更多來源清晰的圖像。
這家公司表示,這將幫助完成一些任務,如檢查體育賽事的比分或轉換測量單位。Simo 說,當創作時,應該能夠看到和塑造所創建的事物。此版本的發佈恰逢與 Google 的競爭加劇。據報導,OpenAI CEO Sam Altman 上個月在 Google 的 Gemini 3 和 Nano Banana Pro 模型登頂 LMArena 排行榜後,宣布進入代碼紅色警報。儘管 OpenAI 上週推出了宣稱其最先進的開發者和專業人士模型 GPT-5.2,但 Google 仍持續保持著其勢頭。
據說 OpenAI 原本計劃在明年 1 月初發佈其下一個影像模型,但提前了時間表。GPT-Image 1.5 的推出也恰逢 OpenAI 與迪士尼簽署協議,將超過 200 個標誌性角色納入 ChatGPT 影像和 Sora 影片中。雖然迪士尼角色尚未出現在 GPT-Image 1.5 中,但預計該功能將於 2026 年初推出。隨著影像和視頻工具逐漸接近生產就緒系統,OpenAI 似乎專注於速度、一致性和控制,旨在縮小想像與執行之間的差距,逐步實現每一幅圖像的創作。




