OpenAI GPT Image 2 研究團隊僅 13 人 四個月內大幅進步

GPT Image 2 網頁版上線,效果卻令人驚豔。研究負責人陳博遠揭秘,底層架構已徹底重構。但他拒絕回答是否採用擴散模型或自迴歸技術,僅神秘描述為「通用模型」或「圖像領域的 GPT」。陳博遠一篇推文還透露,從去年 12 月底的 GPT Image 1.5 算起,只用了四個月就取得如此進步。這項突破性成果,核心團隊僅有 13 人。整個團隊的負責人 Gabriel Goh 現身,帶領 AI 全家福。

評論區有網友感嘆:怎麼全是亞洲人?陳博遠:從不懂 Python 到 GPT Image 2 研究主管,是什麼架構?

GPT Image 2 團隊成員學術與實務背景

成員姓名關鍵背景與貢獻
陳博遠 (Bo-Yuan Chen)MIT 博士,師從 Vincent Sitzmann。NeurIPS 2024 論文《Diffusion Forcing》,融合逐 token 擴散與下一 token 預測。Google 實習開發 SpatialVLM(1000 萬圖像、20 億 QA 對),提升視覺語言模型 3D 空間推理,如從 2D 圖像輸出精準距離、尺寸、方位。高中不諳 Python,經 Google DeepMind 研究員引介入 AI 領域。
王建峰 (Jianfeng Wang)中科大博士生,負責指令遵循與世界知識理解。讓模型精準繪製時鐘 2:25、3:30 等,避免傳統 10:10 偏差;處理複雜空間佈局如蘋果居中、杯子右側。Microsoft近 9 年工作,參與 DALL-E 3,發表多篇計算機視覺論文涵蓋圖像分類、目標檢測、語義分割。
楊宇光 (Yuguang Yang)浙大工程本科、約翰霍普金斯大學計算生物物理與機器學習博士。經歷橫跨量化分析師(納微機器人強化學習)、Amazon Alexa、Microsoft Bing 查詢理解。生成 75 頁 GPT-3 論文幻燈片,自動產 7 張圖像。
其他成員Kenji Hata:DALL-E 起參與多模態研究;Weixin Liang:Meta Mixture-of-Transformers,引入 MoE 降計算成本;Ayaan Haque:Luma AI Dream Machine;Bing Liang:Google Imagen 3、Veo;孟超 (Mengchao Zhong):軟件工程;Dibya Bhattacharjee:2015 IPhO 銀牌;Kiwhan Song:演示詞大師。

陳博遠於 2025 年 6 月加入 OpenAI,迅速成為 GPT 圖像生成五人核心,兼 Sora 視頻團隊成員。演示中,他為家鄉香港隊友做海報、孟加拉隊友做實況拉語海報,文字渲染精準無誤。團隊亞洲面孔突出,多數年輕博士畢業即入,帶來跨領域視野。儘管 OpenAI 近年人才流動大,該公司仍持續吸納多元背景人才,推動自下而上研究,從小團隊突破至改變世界級資源。

GPT Image 2 演示風格生成奇趣日式貼紙頭像,提示如「Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature…」。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。