《Wired》揭露 OpenAI 曾向其編程模型下達「永遠不要談及哥布林、gremlins、熊、巨魔、食人魔、鬼子或其他動物或生物」的完整指令後,OpenAI 已在其官網發文解釋這一現象,稱這是模型在訓練過程中形成的「奇特行為」。 OpenAI 表示,這類涉及哥布林及其他生物的隱喻表達,最早於 GPT-5.1 模型上被察覺,尤其出現在啟用「Nerdy」人格選項時。
根據該公司的解釋,模型持續迭代,這種表達方式不僅沒有消失,反而逐漸擴散。OpenAI 在說明中指出,問題根源與強化學習訓練有關:最初獎勵僅施加在「Nerdy」這一人格項目下,但強化學習並不能保證學到的行為始終嚴格局限於觸發其的項目。一旦某種語言風格或表達獲得獎勵,後續訓練過程就能將其擴展到其他場景,特別是這些輸出又被重複用於監督微調或偏好數據訓練時,這種傾向還會被進一步強化。
模型訓練外溢效應引發持續問題
報導稱,OpenAI 今年 3 月已停止提供「Nerdy」人格,這類關於哥布林和 gremlins 的表達確實有所減少,但並未徹底消失。尤其在 Codex 編程工具所用的 GPT-5.5 模型中,由於 OpenAI 在查明「根源」前已開始訓練該模型,相關表達仍殘留其中。也正因此,OpenAI 最終不得不在 Codex 上施加非常嚴格的約束,明確要求它不再提及這些神話生物。
不過,報導也提到,若有人反倒希望自家 AI 在寫代碼時保留一點這種「哥布林風格」,OpenAI 甚至還公開分享了一種用於撤銷相關限制的方法。從這次回應來看,這場看似諷刺的「哥布林問題」背後,實則反映了大模型訓練中一個更現實難題:某些原本只應出現在特定人格設定下的語言習慣,能在獎勵機制和後續訓練的推動下外溢到更廣泛的模型行為中。對 OpenAI 而言,這不僅是一次關於模型風格失控的公關解釋,也讓外界得以窺見其在修正生成式 AI 細微行為偏差時所面臨的複雜性。




