OpenAI 發佈 ChatGPT Images 2.0 登頂 AI 生圖榜首

OpenAI 再度推出備受矚目的 ChatGPT Images 2.0，奧特曼親自帶隊，透過 20 分鐘線上直播打破數日的沉寂。這款圖像生成功能帶來全新紀元，Images 2.0 在精準理解長指令、準確擺放並理解物件間關係、渲染密集文字等方面有巨大突破。更重要的是，它是首個具備「思考能力」的圖像模型，能夠聯網搜尋即時資訊，並進行二次自檢。Images 2.0 還能一次生成八張不同風格連續圖像，最高支援 2K 解析度。

像素級精準與多語言支援

Images 2.0 重塑視覺生成的統治力。像素級精準：小字體文字、圖標、UI 元素等複雜細節一鍵生成，支援 3:1 至 1:3 全尺寸輸出。多語言轉變：中、日、韓等非拉丁文字精準渲染，不再字拼湊，語句通順連貫。風格成熟：照片級逼真、電影鏡頭、像素藝術、漫畫等視覺語言拿捏到位。具思考能力：首個配備推理能力的圖像模型，能聯網搜尋、自檢輸出，知識更新至 2025 年 12 月。

在 Arena 最新排行榜上，Images 2.0 一騎絕塵，登頂全球 AI 生圖王座，實力暴擊 Google Nano Banana 2/Pro 版本，領先 242 分，在全部 7 個文生圖類別中全數位列第一。最驚人的是，它能做到像素級生成。直播中生成的一張米山圖，其中一顆大米粒上清晰刻著「GPT image 2」字體。奧特曼還秀了一波，和 Images 2.0 圖像負責人 Gabriel Goh 一起生成更多 GPU 漫畫圖。網友紛紛上手，被 Images 2.0 的實力再次震驚。甚至有人表示，「OpenAI 終於再次引領圖像生成領域」。中文直接封神，OpenAI 自己玩梗「穩定地接住了」。過去的圖像模型，英文和拉丁字母尚可，一到中、日、韓文字就開始「鬼畫符」。這次，官博放出的中文 Demo 直接炸裂。OpenAI 研究科學家陳博遠親自出鏡（很可能也是他自己寫的 prompt），生成了一整頁全中文彩色漫畫，講述他在 OpenAI 做 ChatGP

T Images 2 中文文字渲染優化的趣事。這張圖同時證明了三件事：中文文字渲染能力質變、極小字體的精準控制，以及複雜多面漫畫的一次性生成能力。漫畫分五格，第一格是陳博遠在電腦前苦頭工作，背景有老婆乳膠，牆上用膠帶黏著一根菸蒂（致敬藝術圈名場面）。第二格是他為家人兒媳生成的多語言手繪風格海報，上面密密麻麻的中文小字全數渲染正確。第三格是團隊看到效果後集體傻眼的表情。

第四格畫風一轉，陳博遠拿著手機休息，收到奧特曼發來的一條翻譯短訊，祝賀團隊的中文渲染成果。然後，重頭戲來了。第五格，陳博遠看到奧特曼生成的這張祝賀圖片，中央位置赫然寫著一句「穩定地接住了」。懂的都懂。GPT 在中文對話中動不動就「我會穩定地接住了」「你的感受是合理的」，那股子油膩美國心理諮詢味，被中文用戶瘋狂吐槽了大半年。漫畫裡的陳博遠當場破防，漫畫式暴走大喊「天啊！

它又學會了接住了！」，周邊的隊友們化身小腦袋冒熱煙，無力地說「我們正在努力修復它！」。這波自嘲，可給滿分。（手動狗頭） | 規格項目 | 細節描述 | |———-|———-| | 解析度 | 最高 2K | | 生成張數 | 一次最多 8 張連續圖像 | | 寬高比 | 3:1 至 1:3 全支援 | | 知識更新 | 至 2025 年 12 月 |

ChatGPT Images 2.0 可稱之為 OpenAI 生圖的下一個里程碑。直播中，奧特曼將其稱為，「這種感覺就像圖像一下從 GPT-3 直接躍升到 GPT-5」。上一張四人合影，ChatGPT 直接出一張複雜封面，在頁面設計、文字排版極為講究。而且海報中，包含海量的細節，小字處理，人臉一致性，給人一種「男團」的即視感。在細節方面，ChatGPT 輸出完全達到「照片級」效果，逼真到讓人看不出是 AI 生成的。

比如下面這張，穿越回 2015 年 OpenAI 剛成立那年，階梯教室光線環繞、PPT 文檔讓人震驚。真正讓全場驚掉下巴的，是一張人類登月的 360° 全景圖。把 ChatGPT 生成的圖片拖進全景查看器，便可實現如下效果，太陽的位置、影子方向，以及一些細節全數清晰可見。官方放出的 Demo 裡，有一張 macOS 瀏覽器中 ChatGPT 視窗的截圖。視窗層疊、終端在後臺打開、桌面雜亂無章，視覺細節多到離譜，生成出來的效果與真實截圖一模一樣。

渲染精準到這個級別，說明模型對圖像中每一個像素的控制力已跨越一個世界點。照片級逼真，AI 生成的圖終於不像 AI 了。風格逼真度是另一個大躍進。過去 AI 生成的圖片，總有種說不出的「AI 感」，皮膚太光滑、光線太平均、構圖太完美，一眼就能看出不是真人拍的。Images 2.0 反其道而行，開始學會「不完美」。官方 Demo 裡有一組抓拍快照，35mm 膠片質感，可見顆粒感，構圖輕微偏離中心，衣著和頭髮在風中飄動。

如果你不被告知是 AI 生成的，你會以為這是某個攝影師在街頭隨手按下快門的結果。這還有一組一次生成相機風格的照片，模擬的是 2000 年代初美國高中電腦教室場景，學生擠在米色 CRT 顯示器前用 ChatGPT。閃光燈過曝、輕微運動模糊、角落裡印著「02 18 04」的橙色日期章，所有「膠片時代的不完美」都被精準復現。在風格多樣性上，Images 2.0 也拉開了差距。

寬高比現有支援最寬 3:1、最窄 1:3。因此，OpenAI 專門放了一張橫版中國傳統長捲山水畫，水墨渲染和留白都有模有樣。1960 年代法國新浪潮電影海報、簽名藝術風格及動漫角色設計圖，每一種視覺語言都能保持高度的風格一致性，而不只是「看起來有點像」。具思考能力的圖像模型，一次生成八張連續畫面。現場直播中，ChatGPT 圖像負責人 Gabriel Goh 表示，Images 2.0 一上線了兩種模式——即時模式 (Instant Mode) 思考模式 (Thinking Mode)。其中最具覆蓋性的升級，全藏在「思考模式」裡。當在 ChatGPT 中選擇思考模型時，Images 2.0 不再只是一個「你說我畫」的渲染器，而是變成了一個視覺思考夥伴。它會花更多時間理解你的意圖，搜尋網絡獲取即時資訊，對圖像結構進行推理，然後再動筆。更關鍵的是，思考模式下它能一次性生成最多八張不同風格連續、角色一致、內容遞進的圖像。

只需上一張大頭照，ChatGPT 就能立刻給出八套小幅搭配。選擇其中一套，還會為你生成更多服裝不同角度的細節。在這個任務中，ChatGPT 調用了兩種不同的「視覺智能」：首先是「視覺理解」能力，它要真切地「看」照片。理解一個人的風格，然後規範出合適的服裝搭配方案。另一個維度則是「視覺生成」能力。它需要把規畫好的服裝三局，轉化為一組連貫且有邏輯的圖片。以往想做一組社交媒體素材，你得一張張生成，自己拼湊。

現在一 prompt，Twitter、Instagram Stories、Instagram Feed、LinkedIn 四種尺寸一次性出齊，色調和構圖風格統一部現。官方 Demo 展示了七家蘑菇森林抹茶店「kizuki」的廣告素材，冰釀莓果抹茶在陽光下的畫面、街頭服飾美學搭配日式極簡，四種社交平臺尺寸一步到位。還有一個學術論文海報的 Demo，直接上傳 PDF，模型自動提取關鍵圖表、數據和結構，排版成一張橫版海報。

值得一提的是，Images 2.0 開啟思考模式後，還能直接聯網搜尋資訊。團隊透露，五天前在 Arena 盲測的「DuckTape」就是今天的 Images 2.0。然後，他們讓 Images 2.0 搜集網友反饋，並製作成一張圖。沒想到，模型還生成了一個可直接掃描的「二維碼」。

OpenAI 發佈 ChatGPT Images 2.0 登頂 AI 生圖榜首

像素級精準與多語言支援

Henderson

搜尋文章

像素級精準與多語言支援

相關文章

Henderson

搜尋文章