Google 開源 DiffusionGemma:並行生成 256 tokens、速度最高達標準模型 6 倍,但品質仍有落差

2026-06-12 · 來源:VentureBeat AI
重點摘要

Google DiffusionGemma以擴散模型並行生成256 tokens並自我修正,文本生成架構重大創新

Google 本週發布實驗性開源模型 DiffusionGemma,將圖像生成領域常見的擴散(diffusion)原理首次引入大規模文字生成。有別於傳統自回歸語言模型逐一輸出 token 的方式,DiffusionGemma 以 256 個 token 為單位並行生成,每個位置皆可相互參照並在過程中自我修正。

在硬體表現上,單張 Nvidia H100 以 FP8 版本執行、批次大小為 1 的條件下,吞吐量達每秒 1,008 tokens;H200 則達 1,288 tokens,據 vLLM 基準測試約為傳統自回歸基線的六倍。此一特性對本地推論或低並發部署場景尤具意義——傳統模型在這類情境下 GPU 多數時間處於閒置狀態。

該模型基於 Gemma 4 架構,採 Apache 2.0 授權發布,並成為開源推論平台 vLLM 原生支援的首個擴散語言模型。值得注意的是,Google 在發布文中主動說明,DiffusionGemma 整體輸出品質仍低於標準 Gemma 4,建議對品質要求較高的應用場景繼續採用後者。此舉顯示 DiffusionGemma 目前定位為架構探索而非生產替代。

原文出處
原文標題 Google's DiffusionGemma generates 256 tokens in parallel and self-corrects as it goes
媒體來源 VentureBeat AI
發布日期 2026-06-11
閱讀原文 ↗

訂閱品富智圖 AI 新聞

每日 AI 產業要聞彙整,一封信直送信箱。