- 重量级 Target(如 31B 参数)并行验证这些预测
- 接受机制:预测正确则全部接受,错误则从该位置重试
关键创新:Drafter 与 Target 共享 KV-cache 和 activations,无需重新计算上下文!
📊 性能实测数据
Google 官方数据
根据 MLX-VLM 项目在 Apple Silicon 上的实测:
26B-A4B: 3.94× 加速(Apple Silicon,batch size 4)
31B: 2.29× 加速(Apple Silicon,batch size 4)
E4B: 1.56× 加速(Apple Silicon,batch size 4)
真实体验:大多数开发者硬件上的平均加速为 1.7× - 2.2×,已经非常可观了!
🚀 Google Gemma 4 爆发 3 倍性能提升!MTP Drafter 让本地 AI 飞起来
🛠️ 如何在 Apple Silicon 上使用
就在 3 天前,Google 为 Gemma 4 系列模型发布了 MTP Drafter(Multi-Token Prediction Drafter),这是本地 AI 推理的一次重大突破——最高 3 倍推理加速,而且完全无损输出质量。
环境准备
📰 核心速览
安装 MLX-VLM(已支持 MTP Drafter):
发布时间:2026 年 5 月 6 日 | 性能提升:最高 3× | 关键优势:零质量损失 | 支持平台:MLX、vLLM、Ollama
pip install mlx-vlm
🚀 什么是 MTP Drafter?
基础使用示例
使用 MTP Drafter 加速推理:
传统推理 vs MTP 推理
python -m mlx_vlm.generate --model gemma-4-31B-it --draft-model gemma-4-31B-it-assistant --draft-kind mtp --prompt "解释量子计算" --max-tokens 256
传统方式(慢):每个 token → 完整前向传播 → 下一个 token,速度:1 token/步骤
🎯 模型对应关系
每个 Gemma 4 模型都有对应的 MTP Drafter:
MTP Drafter(快):小模型预测 N 个 token → 大模型并行验证 → 一次接受多个,速度:N 个 token/步骤(当接受率高时)
技术原理
- gemma-4-E2B-it → gemma-4-E2B-it-assistant
- gemma-4-E4B-it → gemma-4-E4B-it-assistant
MTP Drafter 采用了推测解码(Speculative Decoding)技术:
- 轻量级 Drafter(仅 74M 参数)快速预测多个未来 token
- gemma-4-26B-A4B-it → gemma-4-26B-A4B-it-assistant
- gemma-4-31B-it → gemma-4-31B-it-assistant
- 重量级 Target(如 31B 参数)并行验证这些预测
⚠️ 兼容性说明
- 接受机制:预测正确则全部接受,错误则从该位置重试
完全支持
关键创新:Drafter 与 Target 共享 KV-cache 和 activations,无需重新计算上下文!
官方 Gemma 4 模型:最佳兼容性,最高加速
📊 性能实测数据
MLX、vLLM、Ollama:主流推理框架都已支持
Google 官方数据
根据 MLX-VLM 项目在 Apple Silicon 上的实测:
有限支持
26B-A4B: 3.94× 加速(Apple Silicon,batch size 4)
微调/越狱模型:可以使用 MTP Drafter,但加速效果会显著降低。原因:权重改变导致 Drafter 预测与 Target 不匹配,预期:Acceptance Rate 下降,加速效果 0-0.5×
注意:如果使用微调模型,不建议启用 MTP Drafter,因为加速效果不明显。
31B: 2.29× 加速(Apple Silicon,batch size 4)
💡 使用建议
E4B: 1.56× 加速(Apple Silicon,batch size 4)
1. 大模型优先:26B-A4B 和 31B 模型收益最大
真实体验:大多数开发者硬件上的平均加速为 1.7× - 2.2×,已经非常可观了!
2. 合理 Batch Size:Apple Silicon 建议 4-8
3. Draft Block Size:建议 3-4,过大会降低接受率
🛠️ 如何在 Apple Silicon 上使用
4. Temperature = 0:贪婪解码时效果最佳
环境准备
🔗 相关资源
Google AI - MTP Overview: https://ai.google.dev/gemma/docs/mtp/overview
MLX-VLM GitHub: https://github.com/Blaizzy/mlx-vlm
安装 MLX-VLM(已支持 MTP Drafter):
pip install mlx-vlm
Ars Technica 深度分析: https://arstechnica.com/ai/2026/05/googles-gemma-4-open-ai-models-use-speculative-decoding-to-get-up-to-3x-faster/
基础使用示例
📝 总结
使用 MTP Drafter 加速推理:
Google 的 MTP Drafter 是本地 AI 推理的重要进步:
优势:显著加速(1.5-3×)| 零质量损失 | 易于集成 | 多平台支持
限制:仅限 Gemma 4 系列 | 微调模型效果有限 | 需要下载额外 Drafter 模型
python -m mlx_vlm.generate --model gemma-4-31B-it --draft-model gemma-4-31B-it-assistant --draft-kind mtp --prompt "解释量子计算" --max-tokens 256
🎯 模型对应关系
推荐:强烈推荐启用 MTP Drafter,这是免费的性能提升!
每个 Gemma 4 模型都有对应的 MTP Drafter:
- gemma-4-E2B-it → gemma-4-E2B-it-assistant
- gemma-4-E4B-it → gemma-4-E4B-it-assistant
- gemma-4-26B-A4B-it → gemma-4-26B-A4B-it-assistant
- gemma-4-31B-it → gemma-4-31B-it-assistant
⚠️ 兼容性说明
完全支持
官方 Gemma 4 模型:最佳兼容性,最高加速
MLX、vLLM、Ollama:主流推理框架都已支持
有限支持
微调/越狱模型:可以使用 MTP Drafter,但加速效果会显著降低。原因:权重改变导致 Drafter 预测与 Target 不匹配,预期:Acceptance Rate 下降,加速效果 0-0.5×
注意:如果使用微调模型,不建议启用 MTP Drafter,因为加速效果不明显。
💡 使用建议
1. 大模型优先:26B-A4B 和 31B 模型收益最大
2. 合理 Batch Size:Apple Silicon 建议 4-8
3. Draft Block Size:建议 3-4,过大会降低接受率
4. Temperature = 0:贪婪解码时效果最佳
🔗 相关资源
Google AI - MTP Overview: https://ai.google.dev/gemma/docs/mtp/overview
MLX-VLM GitHub: https://github.com/Blaizzy/mlx-vlm
Ars Technica 深度分析: https://arstechnica.com/ai/2026/05/googles-gemma-4-open-ai-models-use-speculative-decoding-to-get-up-to-3x-faster/
📝 总结
Google 的 MTP Drafter 是本地 AI 推理的重要进步:
优势:显著加速(1.5-3×)| 零质量损失 | 易于集成 | 多平台支持
限制:仅限 Gemma 4 系列 | 微调模型效果有限 | 需要下载额外 Drafter 模型
推荐:强烈推荐启用 MTP Drafter,这是免费的性能提升!
分享到: