Google 開源 DiffusionGemma：並行生成 256 tokens、速度最高達標準模型 6 倍，但品質仍有落差

2026-06-12 · 來源：VentureBeat AI

重點摘要

Google DiffusionGemma以擴散模型並行生成256 tokens並自我修正，文本生成架構重大創新

Google 本週發布實驗性開源模型 DiffusionGemma，將圖像生成領域常見的擴散（diffusion）原理首次引入大規模文字生成。有別於傳統自回歸語言模型逐一輸出 token 的方式，DiffusionGemma 以 256 個 token 為單位並行生成，每個位置皆可相互參照並在過程中自我修正。

在硬體表現上，單張 Nvidia H100 以 FP8 版本執行、批次大小為 1 的條件下，吞吐量達每秒 1,008 tokens；H200 則達 1,288 tokens，據 vLLM 基準測試約為傳統自回歸基線的六倍。此一特性對本地推論或低並發部署場景尤具意義——傳統模型在這類情境下 GPU 多數時間處於閒置狀態。

該模型基於 Gemma 4 架構，採 Apache 2.0 授權發布，並成為開源推論平台 vLLM 原生支援的首個擴散語言模型。值得注意的是，Google 在發布文中主動說明，DiffusionGemma 整體輸出品質仍低於標準 Gemma 4，建議對品質要求較高的應用場景繼續採用後者。此舉顯示 DiffusionGemma 目前定位為架構探索而非生產替代。

原文出處

原文標題 Google's DiffusionGemma generates 256 tokens in parallel and self-corrects as it goes

媒體來源 VentureBeat AI

發布日期 2026-06-11

閱讀原文 ↗

Google 開源 DiffusionGemma：並行生成 256 tokens、速度最高達標準模型 6 倍，但品質仍有落差

訂閱品富智圖 AI 新聞