Google 公佈了 DiffusionGemma,這是一款全新的實驗性人工智能模型,該模型使用擴散技術生成文本,而非大多數大型語言模型目前採用的自回歸方法。該公司表示,這款模型在專用 GPU 上提供的文本生成速度可達到傳統方法的四倍,同時可在消費者硬件上運行。這款模型基於 Google 的 Gemma 4 系列和 Gemini Diffusion 研究。與傳統的語言模型逐字生成文本不同,DiffusionGemma 以並行方式生成和完善文本塊。
根據 Google 的説法,這種方法使得在 NVIDIA H100 GPU 上的輸出速度超過每秒 1,000 個標記,而在 NVIDIA GeForce RTX 5090 上則超過每秒 700 個標記。該公司表示,DiffusionGemma 旨在為開發速度敏感應用程序的開發者提供支持,例如互動編輯、快速內容迭代、代碼填充,以及其他對低延遲要求高於最大輸出質量的工作流程。
DiffusionGemma 提供四倍於傳統方法的文本生成速度
打破文本瓶頸大多數大型語言模型是按順序生成文本的,逐個預測標記。雖然這種方法有效,但在為單一用户提供服務時,可能會導致本地硬件未得到充分利用。DiffusionGemma 採取了不同的方法。它不是逐字生成文本,而是一次生成 256 個標記的塊,然後通過多次處理反覆完善。Google 將這一差異比作從打字機轉變為印刷機。該模型同時處理整個文本區域,而不是等到每個標記生成後再生成下一個。
該公司表示,這種方法將瓶頸從內存帶寬轉移至計算性能,使現代 GPU 在本地推理過程中更高效運行。另一個關鍵特徵是雙向注意力。由於該模型以並行方式生成文本,每個標記在生成過程中都可以參考其他所有標記。這使其更適合於未來上下文重要的任務,例如代碼完成、內聯編輯、數學結構和生物序列。Google 強調了一個示範,其中 DiffusionGemma 被微調以解決數獨謎題,這一任務對於傳統的自回歸模型來説可能具有挑戰性,因為後續標記會影響先前的決策。
設計用於本地人工智能該模型使用了 260 億參數的專家混合架構,但在推理時僅激活 38 億參數。根據 Google 的説法,這使得該模型在量化後能夠大約適應 18 GB 的 VRAM,使其在高端消費者 GPU 上可用。DiffusionGemma 還包括一個迭代自我校正機制。由於它在完善過程中評估整個文本塊,因此可以隨著生成過程的進展來識別和修正錯誤。然而,Google 承認該模型優先考慮速度而非質量。
該公司表示,標準的 Gemma 4 模型仍然是對於輸出質量要求較高的生產環境的首選。速度優勢在於本地部署和低並發環境下最為明顯。在雲端環境中,為大量用户同時服務時,傳統的自回歸模型通常可以通過批處理有效利用硬件,從而減少基於擴散的生成的優勢。
Google 已經通過 Hugging Face 以 Apache 2.0 授權發布了 DiffusionGemma,並支持通過包括 MLX、vLLM、Hugging Face Transformers、NVIDIA NeMo 和 Unsloth 在內的工具進行部署。
項目 規格 參數數量 260 億 激活參數 38 億 VRAM 適應 約 18 GB

