OpenAI 發佈 ChatGPT Images 2.0 支援推理及 2K 輸出

OpenAI 在原生圖像生成功能推出一年多後,再次大幅升級這項技術。公司發佈 ChatGPT Images 2.0,將其定位為 AI 在圖像創作與編輯方面的重大飛躍。新系統不僅限於簡單生成,更朝向互動式創作引擎發展。OpenAI 形容這次更新為圖像模型的「階躍式改變」,在指令遵循、文字渲染及場景構圖等方面均有顯著提升。模型還能進行任務推理,包括驗證輸出並整合外部資訊。

這項轉變反映出 OpenAI 的更大野心:讓 AI 生成圖像更可靠,並融入實際工作流程。

雙模式設計,滿足不同創作需求

ChatGPT Images 2.0 提供兩種操作模式:Instant 及 Thinking,各針對不同創作需求。Instant 模式強調速度,OpenAI 在推出前以「duct tape」代號於 LMArena 進行低調測試。模型能在維持高視覺品質下快速輸出圖像。Thinking 模式則採取較緩慢、深思熟慮的方式,先進行推理再生成視覺內容。這有助維持多幀角色一致性,並產生連貫敘事,適用於漫畫創作、分鏡設計及多場景規劃。

先前圖像模型常在連續性上遇阻礙,Thinking 模式透過結構化流程解決此問題。 互動式圖像工作流程是最大亮點。OpenAI 不再視圖像生成為單次提示回應,而是讓用戶透過對話精煉內容。可放大細節、調整元素或改變構圖,而無需重啟。模型保留編輯脈絡,支持迭代設計。示範中,它從單張上傳圖像生成八款夏季服裝;另一次則掃描社群對早期測試模型的反應,視覺化總結洞見,並產生連結至 ChatGPT 的 QR code。

這顯示工具能融合推理、研究與設計於一體。 在語言與設計表現上,模型對非拉丁文字(如日文、韓文、中文、印地文及孟加拉文)的處理更佳,解決長期痛點。公司亦強化對特定藝術風格的忠實度,提升遊戲開發及視覺敘事的實用性。 技術規格如下:

規格項目詳細內容
畫面比例靈活支援 3:1 至 1:3
解析度最高 2K
單次輸出最多 8 張圖像

隨著領先 AI 實驗室在文字模型表現趨近,競爭焦點轉向圖像領域。OpenAI 現以 ChatGPT Images 2.0 於網頁及 API 上線,明確押注圖像生成作為下個核心競爭邊界。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。