Gemma 4 性能暴增 3 倍！MTP Drafter 解锁本地 AI 新速度

2026/05/093 分钟

分类：技术前沿

标签：#AI#Gemma4#MLX#AppleSilicon#推理加速

⚡ Google Gemma 4 爆发 3 倍性能提升！MTP Drafter 让本地 AI 飞起来

就在 5 月 6 日，Google 为 Gemma 4 系列模型发布了 MTP Drafter，这是本地 AI 推理的一次重大突破——最高 3 倍推理加速，而且完全无损输出质量。

一、3 天前的大新闻：MTP Drafter 来了

⚡

💡 核心速览：发布时间 2026.05.06 | 最高 3× 加速 | 零质量损失 | 支持 MLX/vLLM/Ollama

1.1 性能实测数据

根据 MLX-VLM 项目在 Apple Silicon 上的实测：

模型	硬件	Batch Size	加速倍数
26B-A4B	Apple Silicon	4	3.94× ⚡⚡⚡
31B	Apple Silicon	4	2.29× ⚡⚡
E4B	Apple Silicon	4	1.56× ⚡

真实体验：大多数开发者硬件上的平均加速为 1.7× - 2.2×，已经非常可观了！

🔗 来源：Google AI官方发布 (2026.05.06)

二、技术原理：为什么能加速？

2.1 传统推理 vs MTP 推理

传统方式（慢）：每个 token → 完整前向传播 → 下一个 token

MTP Drafter（快）：小模型预测 N 个 token → 大模型并行验证 → 一次接受多个

2.2 MTP Drafter 的创新

MTP Drafter 采用了推测解码技术：

轻量级 Drafter（仅 74M 参数）快速预测多个未来 token

重量级 Target（如 31B 参数）并行验证这些预测

接受机制：预测正确则全部接受，错误则从该位置重试

💡

💡 关键创新：Drafter 与 Target 共享 KV-cache 和 activations，无需重新计算上下文！

三、如何在 Apple Silicon 上使用

3.1 环境准备


pip install mlx-vlm

3.2 基础使用示例


python -m mlx_vlm.generate --model gemma-4-31B-it --draft-model gemma-4-31B-it-assistant --draft-kind mtp

🔬 Apple Silicon上的AI推理加速测试

3.3 模型对应关系

每个 Gemma 4 模型都有对应的 MTP Drafter：

Target 模型	Drafter 模型	LM Head 类型
gemma-4-E2B-it	gemma-4-E2B-it-assistant	centroid (sparse)
gemma-4-E4B-it	gemma-4-E4B-it-assistant	centroid (sparse)
gemma-4-26B-A4B-it	gemma-4-26B-A4B-it-assistant	tied dense
gemma-4-31B-it	gemma-4-31B-it-assistant	tied dense

四、兼容性说明（重要）

✅ 官方 Gemma 4 模型：最佳兼容性，最高加速

✅ MLX、vLLM、Ollama：主流推理框架都已支持

⚠️

⚠️ 微调/越狱模型：加速效果会显著降低

❌ 其他模型系列：MTP Drafter 专为 Gemma 4 设计

五、使用建议

大模型优先：26B-A4B 和 31B 模型收益最大

合理 Batch Size：Apple Silicon 建议 4-8

Draft Block Size：建议 3-4

Temperature = 0：贪婪解码时效果最佳

场景	推荐度	说明
官方模型生产环境	⭐⭐⭐⭐⭐	明显加速，零质量损失
大模型离线部署	⭐⭐⭐⭐⭐	2-3× 加速
小模型实时应用	⭐⭐⭐	加速有限
微调/越狱模型	⭐⭐	效果不佳

六、相关资源

📚 Google AI - MTP Overview

📚 MLX-VLM GitHub

📖 Ars Technica深度分析

🎨 多Token预测技术架构示意图

七、总结

Google 的 MTP Drafter 是本地 AI 推理的重要进步：

✅ 优势：显著加速（1.5-3×）| 零质量损失 | 易于集成 | 多平台支持

⚠️ 限制：仅限 Gemma 4 系列 | 微调模型效果有限 | 需要下载额外 Drafter 模型

🎯 推荐：强烈推荐启用 MTP Drafter，这是免费的性能提升！

分享到：