✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
Gemma 4在llama.cpp上终于稳了
4月2号Google发了Gemma 4,第一天就有llama.cpp支持但bug多。现在所有问题都修完了
E2B、E4B、26B MoE、31B Dense
31B在Arena AI排行第3,26B排第6
开源模型最强梯队
用--chat-template-file加载interleaved模版
建议开--cache-ram 2048
上下文长度根据显存来
去年本地最好的是Llama 3.1 70B量化版,勉强能用
现在Gemma 4 31B Q5在Mac Studio上流畅跑,接近GPT-4级别
不依赖API的AI应用开始有商业可行性。数据不出本机,成本为零,延迟极低
对于一人企业,本地模型是真正的基础设施。竞争对手在付API费,你的边际成本是电费
Gemma 4 + llama.cpp = 本地推理最优解,可以上生产了