另一天,另一個谷歌人工智慧模型。這次,Google DeepMind 發布了開放模型家族的新成員 Gemma 4,但它與該群體的其他成員有著本質的不同。 DiffusionGemma 不像大多數 AI 模型那樣產生線性輸出。或者,它可以並行生成整個文字區塊。谷歌表示,這使得在 Nvidia DGX 或普通遊戲 GPU 等本機硬體上運行時速度更快、更有效率。
大多數人工智慧模型都被設計為自回歸,從左到右一次產生一個符號的文字。 DiffusionGemma 與影像生成模型有很多共同點,而影像生成模型從穩定開始,然後減少雜訊以創建所需的內容。此模型採用多次在畫布上運行的佔位符標記欄位來產生潛在標記,並使用它們來改進對其他標記的估計。在該過程結束時,模型將令牌輸出最終確定為一個大塊——「標記」文字面板。
DiffusionGemma 在開放的 Google Forms 領域非常重要。它是一個混合專家(MoE)模型,總共有 260 億個參數,但在推理過程中只啟動了 38 億個參數。這意味著它應該適合高階 GPU 的 18GB RAM 空間。在使用 RTX 5090 進行測試時,DiffusionGemma 每秒發出約 700 個令牌。使用單一 Nvidia H100 AI 加速器,DiffusionGemma 每秒可以產生超過 1,000 個圖示。這是類似尺寸的自回歸 GEMA 模型產量的四倍。
這種文字產生方法將瓶頸從記憶體頻寬轉移到計算,並行產生多達 256 個標記。谷歌表示,這為即時編輯、分子定序和數學繪圖等非線性任務提供了可衡量的提升。上面的動畫展示瞭如何調整 DiffusionGemma 來解決數獨謎題,這對於標準自回歸 AI 模型來說是一項非常困難的任務,因為每個符號都取決於未來的符號。 DiffusionGemma 不斷自我修正大量代幣的能力使這變得更容易。
發布日期: 2026-06-10 20:29:00
來源連結: arstechnica.com








