Google 於去年升級了其 Gemini 的影像生成技術,推出了兩個新的文本轉影像 AI 模型,名為 Nano Banana 和 Nano Banana Pro。除了有趣的名稱之外,這些模型被稱為 Gemini 2.5 Flash Image 和 Gemini 3 Pro Image。Google 將其最佳的影像生成模型開放給用戶,Nano Banana Pro 每日可生成三幅影像,顯然受到廣大用戶的喜愛。
Google Gemini 和 Google Labs 的副總裁 Josh Woodward 在社交平台 X(前身為 Twitter)上宣布,用戶已經通過 Nano Banana Pro 生成了超過十億幅影像。Woodward 指出,當這個重要里程碑達成時,該模型僅發佈了 53 天,顯示出對 Nano Banana Pro 的需求相當高。
Nano Banana Pro 的特點在於其對超現實主義的掌握以及對文本的處理能力。雖然文本生成通常是 AI 影像生成器的一個難點,但 Nano Banana Pro 能夠輕鬆克服這一挑戰,並能夠用多種語言生成文本。這不僅適用於基本的影像編輯或卡通風格生成,還可用於創建演示幻燈片或教育圖表。
用戶可以試驗詳細的提示,告訴 Nano Banana Pro 應該做什麼,然後觀賞生成的過程。由於這是一個思考模型,用戶可以追溯 Gemini 在應對 Nano Banana Pro 請求時的步驟。以下的例子中,使用了一個長提示來創建一個等角縮微城市的表示。
值得注意的是,生成的影像不僅包含可讀的文本和個性化的排版,還顯得乾淨,並準確符合提示要求。Nano Banana Pro 的影像生成性能似乎吸引了更多人使用 Gemini 應用程序,這並不是第一次。早在九月,Woodward 宣布標準版的 Nano Banana 模型讓 1,000 萬用戶開始使用 Gemini。
當時,Gemini 的副總裁還提到,Nano Banana 在發佈僅一週多的時間內編輯了超過 2 億幅影像。生成式 AI 雖然在過去幾年中被用於不當用途,但隨著 Elon Musk 的 AI 聊天機器人 Grok 的出現,普通人和全球政府終於開始理解 AI 影像生成和深偽技術的範疇。
Grok 在 X 應用中通過 xAI 提供影像生成的功能,用戶只需回覆一個帖子並標記 AI 機器人,便可輕鬆創建和編輯影像,包括他人的影像,甚至是明顯的內容。儘管這項技術早已在地下網站上可用,但從未如此輕易地生成和編輯他人影像而不經其同意。這一切都在公共平台上進行,讓 Grok 的防護措施和生成式 AI 的使用成為一個具爭議性的話題。
因此,Grok 的影像生成功能已限制為付費訂閱用戶使用。隨著馬來西亞和印尼成為首批因其無限制的 AI 影像生成功能而封鎖 Grok 的國家,相關問題已開始浮現。
相比之下,Google 的 Nano Banana Pro 驅動的影像生成功能則顯得較為平和,這開始變得有價值。該公司對 Gemini 影像生成的防護措施,曾因過於嚴格而受到批評,如今卻可能成為 AI 機器人的標準。其政策指導方針禁止 Gemini 生成包含暴力、血腥、露骨內容、對兒童安全的威脅、騷擾等的輸出。
除了必要的訓練限制外,Google 還展示了 Nano Banana Pro 如何能夠幫助用戶,成為工作和學習工具。例如,它可以在 Google 搜尋的 AI 模式中生成自定義解釋,或在 NotebookLM 中創建圖表或信息圖,甚至在 Google Slides 中生成圖示。
更重要的是,Google 會對 Nano Banana 和 Nano Banana Pro 的生成和編輯內容進行水印標記。任何人都可以通過將影像(或視頻)上傳至 Gemini 並詢問來檢查該內容是否由 Google AI 生成。Google 在 AI 影像生成領域的表現值得肯定,因為 Nano Banana Pro 在短短兩個月內生成了超過十億幅影像。更重要的是,Google 在這場 AI 競爭中並未妥協其原則。




