OpenAI 發佈 ChatGPT Images 2.0 改善文字生成準確度

在短短兩年內,區分人類創作與 AI 生成圖像的方式正迅速失效。過去,圖像生成模型一經要求產生帶有菜單這類文字元素的圖片,就很容易在拼寫上「翻車」。例如,早期的模型在生成墨西哥菜菜單時,常將常見菜名「發明」成「enchuita」「churiros」「burrto」「margartas」等錯誤拼寫,一眼就能看出不對勁。而現在,使用最新的 ChatGPT Images 2.

0 讓其生成一份墨西哥菜菜單時,模型輸出的結果已足夠直接拿到店內使用,普通食客很難從文字本身察覺破綻。唯一可能令人心生疑慮的,反倒是類似「13.50 美元的酸橙汁醃魚(ceviche)」這種價格水準,會令人對魚的品質產生特別懷疑。為了對比,作者還引用了兩年前使用 DALL·E 3(當時 ChatGPT 尚未配置圖像生成功能)生成的菜單示例,舊模型在文字呈現上的不穩定與新模型形成鮮明反差。

AI 圖像生成技術的核心挑戰

AI 圖像生成器長期以來在拼寫方面表現不佳,核心原因與主流技術路線有關。過去的圖像模型多採用擴散模型(diffusion model),透過在噪聲中逐步「重建」圖像來完成生成任務。Lesan AI 創始人兼 CEO Asmelash Teka Hadgu 在 2024 年接受 TechCrunch 採訪時表示,擴散模型本質上是在生成一幅完整圖像,而圖像上的文字通常只佔極小一塊像素區域,因此模型更傾向於優先學習覆蓋面更大的視覺模式,而非精細的文字形狀。

在此背景下,研究人員開始探索自迴歸模型(autoregressive model)等新機制,讓圖像生成更像大型語言模型那樣,透過逐步預測、推理結構來構建畫面。對於 ChatGPT Images 2.0 使用何種底層架構,OpenAI 在本週的媒體簡報會上拒絕正面回應相關問題。 不過,OpenAI 在介紹中強調,新模型具備所謂的「思考能力」(thinking capabilities),能連結互聯網搜尋資訊、從一次提示生成多張圖片,並對自身輸出進行複查。

這意味著 Images 2.0 不只是單次「出圖」,而是可以圍繞同一創意生成多種素材,例如不同尺寸的營銷材料、適配多平台的廣告圖,甚至是一組多格漫畫分鏡。OpenAI 還表示,新模型在非拉丁文字渲染方面有顯著進步,包括日文、韓文、印度語和阿拉伯語等語言的文字呈現能力均得到加強。模型的知識截停時間為 2025 年 12 月,這也意味著在涉及近期新聞或最新事件的提示時,其生成內容可能存在時效性限制。

在官方新聞稿中,OpenAI 將 Images 2.0 描述為在「細節與逼真度」層面實現了前所未有的提升,強調其能構思並落地更複雜的圖像,精準遵守指令並保留用戶提出的細節要求。特別是在以往圖像模型最容易「崩壞」的環節——小號文字、圖標、界面 UI 元素、密集成圖以及細膩風格約束等面向,Images 2.0 能在最高 2K 分辨率下穩定輸出。這種能力提升也帶來了速度上的驚喜。

相較直接在 ChatGPT 中輸入問題獲取文字回應,生成一幅複雜、多分鏡漫畫或多尺寸素材需要更長時間。但就目前產品表現來看,完成這類複雜圖像任務通常只需數分鐘,已能覆蓋大部分實際應用場景。 在訪問速率限制方面,OpenAI 表示,所有 ChatGPT 和 Codex 用戶將從週二起逐步獲得對 Images 2.0 的使用權。不同層級的付費用戶則可在生成品質和輸出複雜度上解鎖更「高級」的結果,例如更高分辨率、更複雜結構圖或更多版本的圖像輸出。

與此同時,OpenAI 還將透過 gpt-image-2 向開發者開放相關 API,按生成圖像的品質和分辨率分級計費,讓第三方應用能在自家產品中整合這一圖像生成功能。ChatGPT Images 2.0 在文字推理與排版能力上的重大進步,讓曾經被視為「弱項」的文字領域,成為可放心交給 AI 處理的設計環節。伴隨 OpenAI 啟動全面開放與商業化接口,這一代文生圖模型有望迅速進軍營銷設計、產品 UI、遊戲與漫畫創作等多個產業的生產流程,進一步模糊人與 AI 視覺創作之間的界線。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。