ChatGPT Images 2.0 模型生成文字準確度大幅提升

過去,人類創作與 AI 生成的圖像很容易分辨——僅兩年前,使用圖像模型製作墨西哥餐廳菜單,往往會出現「enchuita」「churiros」「burrto」及「margartas」等虛構菜餚。現在,向全新 ChatGPT Images 2.0 模型要求墨西哥菜單,它產生的內容已足夠真實,可直接用於餐廳,而顧客不易察覺異樣。(不過,ceviche 定價 US$13.

50,約 HK$105.30 或許會令人質疑魚鮮度。)

從擴散模型到更精準生成技術

AI 圖像生成器過去常在拼寫上出錯,主因採用擴散模型,從噪聲中重建圖像。「擴散模型[…] 是在重建給定輸入,」Lesan AI 創辦人兼行政總裁 Asmelash Teka Hadgu 在 2024 年向 TechCrunch 表示。「我們可假設圖像上的文字僅佔極小部分,因此生成器學習涵蓋更多像素的圖案。」研究人員其後探索自回歸模型等機制,預測圖像應有樣貌,運作類似大型語言模型(LLM)。

OpenAI 本週新聞發布會上拒絕透露 ChatGPT Images 2.0 的模型類型,但公司解釋,新模型具「思考能力」,可搜尋網絡、從單一提示生成多張圖像,並雙重檢查創作。這讓 Images 2.0 能製作不同尺寸的營銷素材,以及多格漫畫。 OpenAI 指,該模型對日文、韓文、印地文及孟加拉文等非拉丁文字渲染有更強理解。知識截止至 2025 年 12 月,可能影響生成近期新聞相關提示的準確度。

公司新聞稿稱:「Images 2.0 為圖像創作帶來前所未有的精確度和保真度。它不僅能構想更複雜圖像,還能有效實現願景,遵循指示、保留細節,並渲染常令圖像模型崩潰的元素:小文字、圖標、UI 元素、密集構圖及細微風格限制,全以最高 2K 解析度呈現。」生成複雜內容如多格漫畫需數分鐘,非即時如輸入 ChatGPT 問題。自下週二起,所有 ChatGPT 及 Codex 用戶可存取 Images 2.

0,付費用戶生成更進階輸出。公司亦將推出 gpt-image-2 API,收費視輸出品質及解析度而定。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。