OpenAI 發佈 ChatGPT Images 2.0 改善文字生成準確度

在短短兩年內，區分人類創作與 AI 生成圖像的方式正迅速失效。過去，圖像生成模型一經要求產生帶有菜單這類文字元素的圖片，就很容易在拼寫上「翻車」。例如，早期的模型在生成墨西哥菜菜單時，常將常見菜名「發明」成「enchuita」「churiros」「burrto」「margartas」等錯誤拼寫，一眼就能看出不對勁。而現在，使用最新的 ChatGPT Images 2.

0 讓其生成一份墨西哥菜菜單時，模型輸出的結果已足夠直接拿到店內使用，普通食客很難從文字本身察覺破綻。唯一可能令人心生疑慮的，反倒是類似「13.50 美元的酸橙汁醃魚（ceviche）」這種價格水準，會令人對魚的品質產生特別懷疑。為了對比，作者還引用了兩年前使用 DALL·E 3（當時 ChatGPT 尚未配置圖像生成功能）生成的菜單示例，舊模型在文字呈現上的不穩定與新模型形成鮮明反差。

AI 圖像生成技術的核心挑戰

AI 圖像生成器長期以來在拼寫方面表現不佳，核心原因與主流技術路線有關。過去的圖像模型多採用擴散模型（diffusion model），透過在噪聲中逐步「重建」圖像來完成生成任務。Lesan AI 創始人兼 CEO Asmelash Teka Hadgu 在 2024 年接受 TechCrunch 採訪時表示，擴散模型本質上是在生成一幅完整圖像，而圖像上的文字通常只佔極小一塊像素區域，因此模型更傾向於優先學習覆蓋面更大的視覺模式，而非精細的文字形狀。

在此背景下，研究人員開始探索自迴歸模型（autoregressive model）等新機制，讓圖像生成更像大型語言模型那樣，透過逐步預測、推理結構來構建畫面。對於 ChatGPT Images 2.0 使用何種底層架構，OpenAI 在本週的媒體簡報會上拒絕正面回應相關問題。不過，OpenAI 在介紹中強調，新模型具備所謂的「思考能力」（thinking capabilities），能連結互聯網搜尋資訊、從一次提示生成多張圖片，並對自身輸出進行複查。

這意味著 Images 2.0 不只是單次「出圖」，而是可以圍繞同一創意生成多種素材，例如不同尺寸的營銷材料、適配多平台的廣告圖，甚至是一組多格漫畫分鏡。OpenAI 還表示，新模型在非拉丁文字渲染方面有顯著進步，包括日文、韓文、印度語和阿拉伯語等語言的文字呈現能力均得到加強。模型的知識截停時間為 2025 年 12 月，這也意味著在涉及近期新聞或最新事件的提示時，其生成內容可能存在時效性限制。

在官方新聞稿中，OpenAI 將 Images 2.0 描述為在「細節與逼真度」層面實現了前所未有的提升，強調其能構思並落地更複雜的圖像，精準遵守指令並保留用戶提出的細節要求。特別是在以往圖像模型最容易「崩壞」的環節——小號文字、圖標、界面 UI 元素、密集成圖以及細膩風格約束等面向，Images 2.0 能在最高 2K 分辨率下穩定輸出。這種能力提升也帶來了速度上的驚喜。

相較直接在 ChatGPT 中輸入問題獲取文字回應，生成一幅複雜、多分鏡漫畫或多尺寸素材需要更長時間。但就目前產品表現來看，完成這類複雜圖像任務通常只需數分鐘，已能覆蓋大部分實際應用場景。在訪問速率限制方面，OpenAI 表示，所有 ChatGPT 和 Codex 用戶將從週二起逐步獲得對 Images 2.0 的使用權。不同層級的付費用戶則可在生成品質和輸出複雜度上解鎖更「高級」的結果，例如更高分辨率、更複雜結構圖或更多版本的圖像輸出。

與此同時，OpenAI 還將透過 gpt-image-2 向開發者開放相關 API，按生成圖像的品質和分辨率分級計費，讓第三方應用能在自家產品中整合這一圖像生成功能。ChatGPT Images 2.0 在文字推理與排版能力上的重大進步，讓曾經被視為「弱項」的文字領域，成為可放心交給 AI 處理的設計環節。伴隨 OpenAI 啟動全面開放與商業化接口，這一代文生圖模型有望迅速進軍營銷設計、產品 UI、遊戲與漫畫創作等多個產業的生產流程，進一步模糊人與 AI 視覺創作之間的界線。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

OpenAI 發佈 ChatGPT Images 2.0 改善文字生成準確度

AI 圖像生成技術的核心挑戰

推薦內容

關於我們

相關網站