ChatGPT Images 2.0 模型生成文字準確度大幅提升

過去，人類創作與 AI 生成的圖像很容易分辨——僅兩年前，使用圖像模型製作墨西哥餐廳菜單，往往會出現「enchuita」「churiros」「burrto」及「margartas」等虛構菜餚。現在，向全新 ChatGPT Images 2.0 模型要求墨西哥菜單，它產生的內容已足夠真實，可直接用於餐廳，而顧客不易察覺異樣。（不過，ceviche 定價 US$13.50 (約 HK$105) 或許會令人質疑魚鮮度。）

從擴散模型到更精準生成技術

AI 圖像生成器過去常在拼寫上出錯，主因採用擴散模型，從噪聲中重建圖像。「擴散模型[…] 是在重建給定輸入，」Lesan AI 創辦人兼行政總裁 Asmelash Teka Hadgu 在 2024 年向 TechCrunch 表示。「我們可假設圖像上的文字僅佔極小部分，因此生成器學習涵蓋更多像素的圖案。」研究人員其後探索自回歸模型等機制，預測圖像應有樣貌，運作類似大型語言模型（LLM）。

OpenAI 本週新聞發布會上拒絕透露 ChatGPT Images 2.0 的模型類型，但公司解釋，新模型具「思考能力」，可搜尋網絡、從單一提示生成多張圖像，並雙重檢查創作。這讓 Images 2.0 能製作不同尺寸的營銷素材，以及多格漫畫。 OpenAI 指，該模型對日文、韓文、印地文及孟加拉文等非拉丁文字渲染有更強理解。知識截止至 2025 年 12 月，可能影響生成近期新聞相關提示的準確度。

公司新聞稿稱：「Images 2.0 為圖像創作帶來前所未有的精確度和保真度。它不僅能構想更複雜圖像，還能有效實現願景，遵循指示、保留細節，並渲染常令圖像模型崩潰的元素：小文字、圖標、UI 元素、密集構圖及細微風格限制，全以最高 2K 解析度呈現。」生成複雜內容如多格漫畫需數分鐘，非即時如輸入 ChatGPT 問題。自下週二起，所有 ChatGPT 及 Codex 用戶可存取 Images 2.0，付費用戶生成更進階輸出。公司亦將推出 gpt-image-2 API，收費視輸出品質及解析度而定。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

ChatGPT Images 2.0 模型生成文字準確度大幅提升

從擴散模型到更精準生成技術

Henderson

搜尋文章

從擴散模型到更精準生成技術

相關文章

Henderson

搜尋文章