Google 推出 DiffusionGemma 模型實現文本生成速度提升四倍

Google 公佈了 DiffusionGemma，這是一款全新的實驗性人工智能模型，該模型使用擴散技術生成文本，而非大多數大型語言模型目前採用的自回歸方法。該公司表示，這款模型在專用 GPU 上提供的文本生成速度可達到傳統方法的四倍，同時可在消費者硬件上運行。這款模型基於 Google 的 Gemma 4 系列和 Gemini Diffusion 研究。與傳統的語言模型逐字生成文本不同，DiffusionGemma 以並行方式生成和完善文本塊。

根據 Google 的説法，這種方法使得在 NVIDIA H100 GPU 上的輸出速度超過每秒 1,000 個標記，而在 NVIDIA GeForce RTX 5090 上則超過每秒 700 個標記。該公司表示，DiffusionGemma 旨在為開發速度敏感應用程序的開發者提供支持，例如互動編輯、快速內容迭代、代碼填充，以及其他對低延遲要求高於最大輸出質量的工作流程。

DiffusionGemma 提供四倍於傳統方法的文本生成速度

打破文本瓶頸大多數大型語言模型是按順序生成文本的，逐個預測標記。雖然這種方法有效，但在為單一用户提供服務時，可能會導致本地硬件未得到充分利用。DiffusionGemma 採取了不同的方法。它不是逐字生成文本，而是一次生成 256 個標記的塊，然後通過多次處理反覆完善。Google 將這一差異比作從打字機轉變為印刷機。該模型同時處理整個文本區域，而不是等到每個標記生成後再生成下一個。

該公司表示，這種方法將瓶頸從內存帶寬轉移至計算性能，使現代 GPU 在本地推理過程中更高效運行。另一個關鍵特徵是雙向注意力。由於該模型以並行方式生成文本，每個標記在生成過程中都可以參考其他所有標記。這使其更適合於未來上下文重要的任務，例如代碼完成、內聯編輯、數學結構和生物序列。Google 強調了一個示範，其中 DiffusionGemma 被微調以解決數獨謎題，這一任務對於傳統的自回歸模型來説可能具有挑戰性，因為後續標記會影響先前的決策。

設計用於本地人工智能該模型使用了 260 億參數的專家混合架構，但在推理時僅激活 38 億參數。根據 Google 的説法，這使得該模型在量化後能夠大約適應 18 GB 的 VRAM，使其在高端消費者 GPU 上可用。DiffusionGemma 還包括一個迭代自我校正機制。由於它在完善過程中評估整個文本塊，因此可以隨著生成過程的進展來識別和修正錯誤。然而，Google 承認該模型優先考慮速度而非質量。

該公司表示，標準的 Gemma 4 模型仍然是對於輸出質量要求較高的生產環境的首選。速度優勢在於本地部署和低並發環境下最為明顯。在雲端環境中，為大量用户同時服務時，傳統的自回歸模型通常可以通過批處理有效利用硬件，從而減少基於擴散的生成的優勢。

Google 已經通過 Hugging Face 以 Apache 2.0 授權發布了 DiffusionGemma，並支持通過包括 MLX、vLLM、Hugging Face Transformers、NVIDIA NeMo 和 Unsloth 在內的工具進行部署。

項目	規格
參數數量	260 億
激活參數	38 億
VRAM 適應	約 18 GB

Google 推出 DiffusionGemma 模型實現文本生成速度提升四倍

DiffusionGemma 提供四倍於傳統方法的文本生成速度

Henderson

搜尋文章