OpenAI 發佈 ChatGPT Images 2.0 支援推理及 2K 輸出

OpenAI 在原生圖像生成功能推出一年多後，再次大幅升級這項技術。公司發佈 ChatGPT Images 2.0，將其定位為 AI 在圖像創作與編輯方面的重大飛躍。新系統不僅限於簡單生成，更朝向互動式創作引擎發展。OpenAI 形容這次更新為圖像模型的「階躍式改變」，在指令遵循、文字渲染及場景構圖等方面均有顯著提升。模型還能進行任務推理，包括驗證輸出並整合外部資訊。

這項轉變反映出 OpenAI 的更大野心：讓 AI 生成圖像更可靠，並融入實際工作流程。

雙模式設計，滿足不同創作需求

ChatGPT Images 2.0 提供兩種操作模式：Instant 及 Thinking，各針對不同創作需求。Instant 模式強調速度，OpenAI 在推出前以「duct tape」代號於 LMArena 進行低調測試。模型能在維持高視覺品質下快速輸出圖像。Thinking 模式則採取較緩慢、深思熟慮的方式，先進行推理再生成視覺內容。這有助維持多幀角色一致性，並產生連貫敘事，適用於漫畫創作、分鏡設計及多場景規劃。

先前圖像模型常在連續性上遇阻礙，Thinking 模式透過結構化流程解決此問題。互動式圖像工作流程是最大亮點。OpenAI 不再視圖像生成為單次提示回應，而是讓用戶透過對話精煉內容。可放大細節、調整元素或改變構圖，而無需重啟。模型保留編輯脈絡，支持迭代設計。示範中，它從單張上傳圖像生成八款夏季服裝；另一次則掃描社群對早期測試模型的反應，視覺化總結洞見，並產生連結至 ChatGPT 的 QR code。

這顯示工具能融合推理、研究與設計於一體。在語言與設計表現上，模型對非拉丁文字（如日文、韓文、中文、印地文及孟加拉文）的處理更佳，解決長期痛點。公司亦強化對特定藝術風格的忠實度，提升遊戲開發及視覺敘事的實用性。技術規格如下：

規格項目	詳細內容
畫面比例	靈活支援 3:1 至 1:3
解析度	最高 2K
單次輸出	最多 8 張圖像

隨著領先 AI 實驗室在文字模型表現趨近，競爭焦點轉向圖像領域。OpenAI 現以 ChatGPT Images 2.0 於網頁及 API 上線，明確押注圖像生成作為下個核心競爭邊界。

OpenAI 發佈 ChatGPT Images 2.0 支援推理及 2K 輸出

雙模式設計，滿足不同創作需求

Henderson

搜尋文章

雙模式設計，滿足不同創作需求

相關文章

Henderson

搜尋文章