谷歌發布並開源Gemma 4系列的多token預測（MTP）草稿模型，採用投機解碼，在保留主模型最終權重的前提下實現最高3倍推理提速且不損輸出質量。MTP利用閒置算力提前預測多路未來token，並由重型目標模型並行驗證；若同意草稿，則一次性接收整段序列並共享激活狀態與KV快取。為E2B/E4B嵌入層引入聚類。MTP已全面開源，支持VLLM、SGLang、Ollama等框架，能在消費級顯卡上流暢運行26B MOE與31B稠密模型，並降低移動端實時AI的功耗。

币界网

2026-05-06 00:37:51

摘要生成中

幣界網消息，谷歌發布並開源了Gemma 4系列的多token預測（MTP）草稿模型。該模型採用投機解碼架構，能夠在主模型保留最終驗證權的基礎上，實現最高3倍的推理提速，且不損耗輸出質量。MTP方案利用閒置算力，提前預測多個未來token，再交由重型目標模型並行驗證。若目標模型同意草稿，就會一次性接收整段序列。草稿模型共享目標模型的激活狀態和KV快取，針對E2B和E4B模型，團隊在嵌入層引入聚類技術。目前，MTP模型已全面開源，支持VLLM、SGLang和Ollama等主流推理框架。這次優化顯著降低了應用門檻，使開發者能在普通消費級顯卡上流暢運行26B MOE和31B稠密模型，也能在移動設備上以更低功耗支援即時AI交互。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
Gate廣場五月交易分享
36.3萬熱度
#
比特幣站穩8萬關口
9428.51萬熱度
#
加密市場回升
11.06萬熱度
#
Aave起訴要求解凍7300萬美元ETH
101.29萬熱度
#
Polymarket每日熱點
82.46萬熱度

谷歌開源Gemma 4全系MTP投機解碼模型，最高提速3倍

熱門話題

Gate廣場五月交易分享

比特幣站穩8萬關口

加密市場回升

Aave起訴要求解凍7300萬美元ETH

Polymarket每日熱點

置頂