ChatGPT 新增圖像生成功能引發混合反應

OpenAI 最近為 ChatGPT 4o 增加了圖像生成和編輯功能,雖然其生成的圖像質量相當優秀,但在文字渲染方面的奇怪規則卻讓人感到相當困惑。

首先,值得提及的是其優點。過去,ChatGPT 依賴 DALL-E 進行圖像生成,而現在它能夠獨立完成這項任務。雖然生成圖像的速度較慢,但質量非常出色,例如這幅冬季的知更鳥。

此外,ChatGPT 也能夠創作人物形象,例如一個快樂的家庭在海灘上玩耍的場景。

ChatGPT 同樣具備圖像編輯的能力。如果上傳一張帶有水印的照片,請求刪除圖像上的文字,ChatGPT 會禮貌地拒絕,這在某種程度上比 Gemini 的新原生圖像編輯技術更為出色。這是應有的做法,ChatGPT 在尊重版權方面值得稱讚。

不過,ChatGPT 可以編輯沒有版權的圖像。我上傳了一些測試圖像,發現它在更改背景、調整圖像中的人物或改變圖像的氛圍方面都表現得相當出色。例如,將家庭的背景更改為城市公園。

OpenAI 表示,其圖像生成能力適用於「以文字為主的圖像,例如說明海報、學習概念的可視化、商標和名片」。文字生成一直是 AI 的一大難題,因此如果 ChatGPT 能夠克服這一障礙,將會是相當值得期待的。

然而,在測試過程中,當我請求它在英國的墓碑上渲染幾行詩句時,卻遇到了問題。ChatGPT 表示無法在墓碑上繪製文字。即使我將請求更改為在鄉村的石碑上,或是路標上,ChatGPT 仍然拒絕,理由是這違反了「內容指導方針」。當我詢問能否在咖啡杯上繪製詩句時,ChatGPT 也表示無法生成這樣的圖像,因為這涉及在實體物體上生成可讀的文字,這不被允許。

這讓人困惑,究竟這樣的請求有何不妥?我試圖請求 ChatGPT 以藝術方式繪製詩句,但仍遭到拒絕,理由是「由於內容政策限制,無法生成包含長文本的可讀圖像」。

此處的「長文本」似乎是問題所在,然而幾行詩句無疑不算「長」。這也讓人感到諷刺,因為 OpenAI 在宣佈 ChatGPT 的新圖像功能時,發布了一張包含文字的黑板圖像,這幅圖像顯然是由 ChatGPT 創建的。因此,我試著請求它在黑板上繪製少量文字,例如「Stop making sense」,它能夠完成,但當我要求在黑板上繪製幾行詩句時,仍然遭到拒絕。

如果請求 DALL-E 在英國的墓碑上生成相同的詩句,它沒有任何問題,但生成的文字卻不太清晰。如今擁有一個可以生成清晰文字的 AI 圖像生成器卻受到限制,確實令人遺憾。雖然它生成的文字質量遠超 DALL-E,但無法將這一功能應用於實際用途,實在令人沮喪。

【教學】免費使用 ChatGPT-4 的 6 個方法

【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced

【整理】Google Gemini 語音指令:發 WhatsApp、開 Apps、打電話等等

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。