OpenAI GPT Image 隊研究員陳博遠 知乎發文 解釋中文生成改進

OpenAI 研究科學家陳博遠在知乎上發表了一篇文章,開頭非常直接:「大家好,我是 GPT Image 團隊的研究科學家陳博遠。上週發佈的 GPT 生圖模型就是我主導訓練的!」他還提到,這次終於修好了模型的中文字體渲染。如果中文用戶有什麼反饋,可以直接回覆他。 ChatGPT Images 2.0 發佈之後,很多人的第一反應是:這個模型的中文字體能力,強得有點不講道理。

過去的圖像模型多少有些「看不懂字」。它們能畫風景、畫人物,但一旦涉及中文,就很容易變成一團難以辨認的鬼畫符。但 GPT-image-2 不一樣,它不僅能寫對字,還能排版、分段、生成帶邏輯結構的中文資訊圖。曾經那種「看文字判斷是不是 AI 生成」的訣竅,到這一代已經行不通了。 陳博遠是 GPT Image 2 訓練和能力展現裡真正站到前臺的人之一。在發佈會上,他和奧特曼一起演示了文字渲染能力。

發佈後,他又在知乎上解釋了官網圖片背後的很多花絮:LMArena 雙盲測試時,GPT Image 2 曾用「duct-tape」(布基膠帶)作為代號;官網 blog 裡的很多圖片,是他親手用模型做出的;中文字體漫畫、米粒刻字、多語言文字、視角證明、自動生成二維碼,這些看起來像宣傳材料的圖片,其實是有設計目的的能力測試。 對這個「duct-tape」的膠帶,他用了很有趣的解釋:「至於為啥起名叫布基膠帶呢.

.當然是因為你可以用布基膠帶把香煙貼在牆上嘛!」

他在問一個更深的問題

陳博遠並不是那種一眼就能被記住的研究員。沒有頻繁的公開演講,也沒有刻意經營個人表達。他會寫博客、發一些輕鬆的內容,但這些更像是記錄,而不是建立影響力。相比之下,他的存在感更多來自模型本身。 他現在是 OpenAI 的一名研究員,參與圖像模型的訓練。在此之前,他在麻省理工學院完成電子工程與計算機科學博士學位,同時修讀哲學,也曾在 Google DeepMind 參與多模態模型的研究工作。

這些經歷已經足夠亮眼,但更重要的是他長期關注的問題。 從 DeepMind 到 OpenAI,陳博遠的研究方向並沒有改變。當大部分人還在討論模型能不能寫得更好、畫得更像的時候,他關心的是一更基礎的層面:模型究竟在「理解」什麼。可以看作三個問題:模型如何理解圖像?圖像和語言之間到底是什麼關係?當一個模型面對真實世界時,它究竟是在生成結果,還是模擬世界? 這些問題聽起來抽象,但它們卻決定了今天這一代模型的邊界。

在他的個人主頁上,他把自己的研究方向寫得很直接:世界模型、具身智能、強化學習。 所謂世界模型,可以理解為一件事:讓 AI 在腦部形成一個對世界的判斷。它不要知道眼前發生了什麼,還要能預測接下來會發生什麼。這和今天常見的 LLM(大語言模型)有點區別,LLM 更像是在處理語言,而世界模型更近於一種結構:它需要理解空間、時間、因果,以及行為的結果。 用一個很簡單的例子來說,AI 如果真的「理解」世界,它應該知道塑料杯掉在地上會彈一下,而玻璃杯會碎掉。

具身智能和強化學習,則可以理解為這個問題的延伸——如果一個模型真的理解世界,它就不應該只是回答問題,還應該能行動,並在行動中不斷修正自己的判斷。他參與的工作,往往不是單一任務優化,而是試圖把生成模型、視覺理解和決策系統連在一起。 他最具代表性的工作之一,是一項名為 Diffusion Forcing 的研究。這項研究試圖解決一個很基礎的問題:模型到底是一步一步生成,還是瞬時生成?

LLM 是前者,它長序列生成,但長內容裡容易出錯;擴散模型更近於後者,它更穩定,但缺乏結構。 陳博遠的做法,就是把這兩種方式放在同一個模型裡,讓模型既能逐步生成,又能對整體進行約束。如果說 Diffusion Forcing 是在時間維度上做統壹,那麼他參與的另一項工作 SpatialVLM,就是在空間維度上補充能力。 這個工作針對一個長期存在的問題:模型雖然能看圖說話,但並不真正理解空間關係。

它不知道遠近、大小,也不理解物體之間的相對位置。為了解決這一點,他所在的團隊建了一套三維空間推理體系,讓模型不僅能「看見」,還要能「推理」。 類似的思路也出現在他的其他工作中,例如利用歷史資訊引導生成的 History-Guided 方法,或將視覺、動作與語言統壹建模的研究。這些工作看起來分散,但都指向一個方向:讓模型不只是輸出結果,而是在腦部形成一種穩定的表達。

在嚴肅的研究方向之外,陳博遠也會偶爾展現出一種很活潑的個人趣味。例如這次在知乎上發表的文章,又例如他在個人主頁特別介紹了自己的興趣是煮波霸奶茶(making boba),連知乎名都是「MIT 奶茶店長」。 他還寫了一篇博客,給美國計算機科學名校做了一個排名,標準不是科研實力,而是煮奶茶。斯坦福被他排在第一,因為校園周圍「有被高質量奶茶店包圍」,而 MIT 則被他打了一個不太高的分數,原因是「還近奶茶店太少,而且質量不穩定」。

這類表達很輕鬆,但可以看出他的研究風格:把複雜的問題拆開,找到可以比較的維度,再做判斷。他的工作本質也在做類似的事,只不過對象換成了模型。 陳博遠並不是那種一眼就能被記住的研究員。沒有頻繁的公開演講,也沒有刻意經營個人表達。他會寫博客、發一些輕鬆的內容,但這些更像是記錄,而不是建立影響力。相比之下,他的存在感更多來自模型本身。 如果只看圖像模型的發展路徑,過去的邏輯其實很簡單:更大的參數、更高的分辯率、更穩定的生成過程。

大多數改進,集中在「畫得更像」這件事上。 但隨著模型開始處理更複雜的內容,這條路也走到了瓶頸:當圖像裡不僅有視覺元素,還包含文字、結構乃至邏輯關係時,問題不再只是像不像,而是這些資訊如何同時成立。 問題從生成質量,轉向了結構一致性。這類問題並不是所有研究者都會去做,它既不直接對應某個評測指標,也很難在短期內轉化成產品效果。相比之下,做分辯率、做風格、做細節,往往更容易看到提升。

而陳博遠的路徑,恰好避開了那些「更容易」的方向:從他在學術階段的研究開始,他關注的就不只是單一模態的能力,而是不同能力之間如何被連接到一起。 在很長一段時間裡,視覺模型、語言模型和決策系統,是各自發展的。它們可以通過接口連接,但在腦部往往是分開的。因此,模型雖然可以「調用能力」,卻很難表現出一致的理解。 陳博遠做的工作,就是試圖改變這種狀態。這次模型的很多能力展現,本來就發生在「圖像、文字、邏輯、真實物體和文化語言環境」的交界處。

陳博遠說,官網 blog 裡的很多圖片都是他親手做的。整個 blog 都是用圖片生成的,完全沒有普通文字。換句話說,用戶在官網上看到的很多示例,不只是宣傳材料,而是模型能力本質的一部份。 例如那幅中文彩蛋漫畫。他想做一個很有趣的漫畫,於是用到了「接住桿」和「香煙桿」。為了展示文字能力,他特意讓模型在圖裡加入多國語言文字,又在家庭廚房的微小角落生成特別特別小的中文,用來測試模型到底能處理多細的細節。

更關鍵的是,這幅圖不是拼湊出來的——按他的說法,整幅圖,包括畫中畫和畫中畫中的畫,都是瞬時生成的。他希望大家以為這是拼圖,這才特意在圖底加了註解。 這正好說明 GPT Image 2 的難點在哪裡。過去的圖像模型如果能寫出幾個不出錯的大字,已經算很不錯了。但 GPT Image 2 要處理的是一整套層級:它要知道這是一幅漫畫及插圖,漫畫裡有圖,圖裡還有圖;它要在不同層級裡放入不同語言的文字;它還要讓這些文字和畫面關係成立,而不是隨機散落在圖裡。

再比如米粒刻字。陳博遠說,他一開始覺得普通文字渲染還不夠驚艷,於是在隊友提議下做了一幅 4K 圖:畫面上是一顆米粒,其中一粒米上刻著字。這測試了模型在極小尺度裡的文字控制能力。 還有那幅黑板視角證明。陳博遠表示:「如果讓他解普通數學題方程啥的,好像就太簡單了。nano banana 好像通過思考模式+文字渲染的方式也能做。於是我想到了一個我非常喜歡的視角證明來真正考驗 GPT Image 2 獨特的視角推理效果。

圖裡提示詞語的,是在黑板上用視角(而不是數字)證明從 1 開始的奇數之和是一個平方的。普通的模型其實很容易推理出數字解,但圖形解只有視覺模型才能做了。」 這也是 GPT Image 2 這次發佈裡最值得注意的變化之一:它開始能把一個抽象關係變成圖像結構,再把這個結構用視角方式表達出來。 所以,與其說 GPT Image 2 在「生圖」,不如說它在生成一種帶有結構的視角表達。

漫畫、海報、視角證明……這些東西本質上都不是純圖片,它們同時包含文字、排版、層級、對象關係、任務目標和審美判斷。 過去的圖像模型容易在這裡崩潰,是因為它們把圖像當成像素結果。而這一代更強的圖像模型,必須把圖像當成一種帶結構的表達。 在 OpenAI 內部,真正參與模型訓練的人其實不多。GPT-image-2 發佈之後,研究負責人 Gabriel Goh 在社交媒體上公開感謝了他們的團隊成員。

名單並不長,只有十幾個人。這更像是一支小團隊,而不是龐大的工程體系。團隊成員分散在不同方向,有人做視覺,有人做生成機制,有人處理系統結構,但最終指向的是一件同一件事:讓模型具備一套可以同時處理圖像、語言和結構的能力。 推文裡的插圖某種程度上也像是一張比喻:一群人圍在一起,每個人負責一部份,最後拼成同一幅圖。 模型的結構、能力邊界,乃至「圖像應該是什麼」,都是在這樣一支團隊裡一點一點做出的。

有個值得注意的地方是,在這十幾人的核心團隊裡,可以看到相當數量的中文姓名。除了陳博遠之外,還包括做視覺語言模型的王劍鋒(Jianfeng Wang)、做模型評估與數據問題的梁偉新(Weixin Liang)、長期從事圖像生成的楊宇光(Yuguang Yang),以及參與圖像生成與系統訓練的多位研究者。 陳博遠也沒有把這件事寫成一個人的勝利。在知乎文章的最後,他特別感謝了整個團隊。

他說,每個人都做了很多很多的事。在發佈前的尾聲,他除了修一些小細節,就是和市場部同事、做藝術的同事一起準備發佈會和網站。 也就是說,GPT Image 2 是一次研究、產品、審美和宣傳的共同完成。模型團隊要把能力做出來,藝術團隊要知道什麼樣的圖能把能力展現出來,市場團隊要把這些能力翻譯成普通用戶看得懂、願意測試、也願意宣傳的畫面。 這也是為什麼這次發佈裡的很多示例都很特別。

它們並不是隨便生成一幅絢爛圖片就結束,而是主動製造難題:多國語言、極小文字、畫中畫、真實物體、視角證明、搜尋生成海報、二維碼嵌入。 每幅圖都在告訴用戶:你以前覺得圖像模型做不到的事,現在可以重試一遍。 從這個角度看,陳博遠的位置很特殊。他既在模型訓練一側,也站到了發佈現場的一側;他不僅參與把模型做出來,還親手設計了很多讓外界理解模型能力的圖片。 GPT Image 2 當然不是陳博遠一個人的作品,但從公開資訊看,陳博遠確實是這次圖像模型發佈中值得中文社群關注的名字之一。

一方面,這次發佈的 GPT 生圖模型就是他主導訓練的;另一方面,他又剛好抓住了中文用戶最容易感知的突破:中文字體渲染。 當 AI 終於能把中文寫進複雜圖像裡,背後那個長期研究世界模型、空間理解和生成一致性的研究世界,站到了臺前。 他說:「希望這次穩穩接住了大家。」

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。