谷歌開源Gemma 4全系MTP投機解碼模型,最高提速3倍

robot
摘要生成中

幣界網消息,谷歌發布並開源了Gemma 4系列的多token預測(MTP)草稿模型。該模型採用投機解碼架構,能夠在主模型保留最終驗證權的基礎上,實現最高3倍的推理提速,且不損耗輸出質量。MTP方案利用閒置算力,提前預測多個未來token,再交由重型目標模型並行驗證。若目標模型同意草稿,就會一次性接收整段序列。草稿模型共享目標模型的激活狀態和KV快取,針對E2B和E4B模型,團隊在嵌入層引入聚類技術。目前,MTP模型已全面開源,支持VLLM、SGLang和Ollama等主流推理框架。這次優化顯著降低了應用門檻,使開發者能在普通消費級顯卡上流暢運行26B MOE和31B稠密模型,也能在移動設備上以更低功耗支援即時AI交互。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆