OpenAI 發佈 ChatGPT Images 2.0 登頂 AI 生圖榜首

OpenAI 再度推出備受矚目的 ChatGPT Images 2.0,奧特曼親自帶隊,透過 20 分鐘線上直播打破數日的沉寂。這款圖像生成功能帶來全新紀元,Images 2.0 在精準理解長指令、準確擺放並理解物件間關係、渲染密集文字等方面有巨大突破。更重要的是,它是首個具備「思考能力」的圖像模型,能夠聯網搜尋即時資訊,並進行二次自檢。Images 2.0 還能一次生成八張不同風格連續圖像,最高支援 2K 解析度。

像素級精準與多語言支援

Images 2.0 重塑視覺生成的統治力。像素級精準:小字體文字、圖標、UI 元素等複雜細節一鍵生成,支援 3:1 至 1:3 全尺寸輸出。多語言轉變:中、日、韓等非拉丁文字精準渲染,不再字拼湊,語句通順連貫。風格成熟:照片級逼真、電影鏡頭、像素藝術、漫畫等視覺語言拿捏到位。具思考能力:首個配備推理能力的圖像模型,能聯網搜尋、自檢輸出,知識更新至 2025 年 12 月。

在 Arena 最新排行榜上,Images 2.0 一騎絕塵,登頂全球 AI 生圖王座,實力暴擊 Google Nano Banana 2/Pro 版本,領先 242 分,在全部 7 個文生圖類別中全數位列第一。最驚人的是,它能做到像素級生成。直播中生成的一張米山圖,其中一顆大米粒上清晰刻著「GPT image 2」字體。奧特曼還秀了一波,和 Images 2.

0 圖像負責人 Gabriel Goh 一起生成更多 GPU 漫畫圖。 網友紛紛上手,被 Images 2.0 的實力再次震驚。甚至有人表示,「OpenAI 終於再次引領圖像生成領域」。中文直接封神,OpenAI 自己玩梗「穩定地接住了」。過去的圖像模型,英文和拉丁字母尚可,一到中、日、韓文字就開始「鬼畫符」。這次,官博放出的中文 Demo 直接炸裂。OpenAI 研究科學家陳博遠親自出鏡(很可能也是他自己寫的 prompt),生成了一整頁全中文彩色漫畫,講述他在 OpenAI 做 ChatGP

T Images 2 中文文字渲染優化的趣事。這張圖同時證明了三件事:中文文字渲染能力質變、極小字體的精準控制,以及複雜多面漫畫的一次性生成能力。 漫畫分五格,第一格是陳博遠在電腦前苦頭工作,背景有老婆乳膠,牆上用膠帶黏著一根菸蒂(致敬藝術圈名場面)。第二格是他為家人兒媳生成的多語言手繪風格海報,上面密密麻麻的中文小字全數渲染正確。第三格是團隊看到效果後集體傻眼的表情。

第四格畫風一轉,陳博遠拿著手機休息,收到奧特曼發來的一條翻譯短訊,祝賀團隊的中文渲染成果。然後,重頭戲來了。第五格,陳博遠看到奧特曼生成的這張祝賀圖片,中央位置赫然寫著一句「穩定地接住了」。懂的都懂。GPT 在中文對話中動不動就「我會穩定地接住了」「你的感受是合理的」,那股子油膩美國心理諮詢味,被中文用戶瘋狂吐槽了大半年。 漫畫裡的陳博遠當場破防,漫畫式暴走大喊「天啊!

它又學會了接住了!」,周邊的隊友們化身小腦袋冒熱煙,無力地說「我們正在努力修復它!」。這波自嘲,可給滿分。(手動狗頭) | 規格項目 | 細節描述 | |———-|———-| | 解析度 | 最高 2K | | 生成張數 | 一次最多 8 張連續圖像 | | 寬高比 | 3:1 至 1:3 全支援 | | 知識更新 | 至 2025 年 12 月 |

| 模式 | 即時模式 (Instant Mode)、思考模式 (Thinking Mode) | | 多語言 | 中、日、韓、泰、日語、印地語等 9 種語言及方言 | 中文以外,OpenAI 還放出全日語對白的少年冒險漫畫、泰文固語、現代拉語、泰國寮語等九種語言及方言封面的印度及店,以及韓語高級韓宅宿舍廣告。語言不再是圖像生成的「二等公民」。像素級生成,GPT-3 到 GPT-5 大跨越。

ChatGPT Images 2.0 可稱之為 OpenAI 生圖的下一個里程碑。直播中,奧特曼將其稱為,「這種感覺就像圖像一下從 GPT-3 直接躍升到 GPT-5」。上一張四人合影,ChatGPT 直接出一張複雜封面,在頁面設計、文字排版極為講究。而且海報中,包含海量的細節,小字處理,人臉一致性,給人一種「男團」的即視感。在細節方面,ChatGPT 輸出完全達到「照片級」效果,逼真到讓人看不出是 AI 生成的。

比如下面這張,穿越回 2015 年 OpenAI 剛成立那年,階梯教室光線環繞、PPT 文檔讓人震驚。真正讓全場驚掉下巴的,是一張人類登月的 360° 全景圖。把 ChatGPT 生成的圖片拖進全景查看器,便可實現如下效果,太陽的位置、影子方向,以及一些細節全數清晰可見。官方放出的 Demo 裡,有一張 macOS 瀏覽器中 ChatGPT 視窗的截圖。視窗層疊、終端在後臺打開、桌面雜亂無章,視覺細節多到離譜,生成出來的效果與真實截圖一模一樣。

渲染精準到這個級別,說明模型對圖像中每一個像素的控制力已跨越一個世界點。 照片級逼真,AI 生成的圖終於不像 AI 了。風格逼真度是另一個大躍進。過去 AI 生成的圖片,總有種說不出的「AI 感」,皮膚太光滑、光線太平均、構圖太完美,一眼就能看出不是真人拍的。Images 2.0 反其道而行,開始學會「不完美」。官方 Demo 裡有一組抓拍快照,35mm 膠片質感,可見顆粒感,構圖輕微偏離中心,衣著和頭髮在風中飄動。

如果你不被告知是 AI 生成的,你會以為這是某個攝影師在街頭隨手按下快門的結果。這還有一組一次生成相機風格的照片,模擬的是 2000 年代初美國高中電腦教室場景,學生擠在米色 CRT 顯示器前用 ChatGPT。閃光燈過曝、輕微運動模糊、角落裡印著「02 18 04」的橙色日期章,所有「膠片時代的不完美」都被精準復現。 在風格多樣性上,Images 2.0 也拉開了差距。

寬高比現有支援最寬 3:1、最窄 1:3。因此,OpenAI 專門放了一張橫版中國傳統長捲山水畫,水墨渲染和留白都有模有樣。1960 年代法國新浪潮電影海報、簽名藝術風格及動漫角色設計圖,每一種視覺語言都能保持高度的風格一致性,而不只是「看起來有點像」。 具思考能力的圖像模型,一次生成八張連續畫面。現場直播中,ChatGPT 圖像負責人 Gabriel Goh 表示,Images 2.

0 一上線了兩種模式——即時模式 (Instant Mode) 思考模式 (Thinking Mode)。其中最具覆蓋性的升級,全藏在「思考模式」裡。當在 ChatGPT 中選擇思考模型時,Images 2.0 不再只是一個「你說我畫」的渲染器,而是變成了一個視覺思考夥伴。它會花更多時間理解你的意圖,搜尋網絡獲取即時資訊,對圖像結構進行推理,然後再動筆。更關鍵的是,思考模式下它能一次性生成最多八張不同風格連續、角色一致、內容遞進的圖像。

只需上一張大頭照,ChatGPT 就能立刻給出八套小幅搭配。選擇其中一套,還會為你生成更多服裝不同角度的細節。 在這個任務中,ChatGPT 調用了兩種不同的「視覺智能」:首先是「視覺理解」能力,它要真切地「看」照片。理解一個人的風格,然後規範出合適的服裝搭配方案。另一個維度則是「視覺生成」能力。它需要把規畫好的服裝三局,轉化為一組連貫且有邏輯的圖片。以往想做一組社交媒體素材,你得一張張生成,自己拼湊。

現在一 prompt,Twitter、Instagram Stories、Instagram Feed、LinkedIn 四種尺寸一次性出齊,色調和構圖風格統一部現。官方 Demo 展示了七家蘑菇森林抹茶店「kizuki」的廣告素材,冰釀莓果抹茶在陽光下的畫面、街頭服飾美學搭配日式極簡,四種社交平臺尺寸一步到位。 還有一個學術論文海報的 Demo,直接上傳 PDF,模型自動提取關鍵圖表、數據和結構,排版成一張橫版海報。

值得一提的是,Images 2.0 開啟思考模式後,還能直接聯網搜尋資訊。團隊透露,五天前在 Arena 盲測的「DuckTape」就是今天的 Images 2.0。然後,他們讓 Images 2.0 搜集網友反饋,並製作成一張圖。沒想到,模型還生成了一個可直接掃描的「二維碼」。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。