Gemma 4 性能暴增 3 倍!MTP Drafter 解锁本地 AI 新速度

Gemma 4 性能暴增 3 倍!MTP Drafter 解锁本地 AI 新速度

2026/05/095 分钟
分类:技术分享
标签:#人工智能#Apple Silicon#Gemma#推理加速#性能优化
  1. 重量级 Target(如 31B 参数)并行验证这些预测
  1. 接受机制:预测正确则全部接受,错误则从该位置重试
💡
关键创新:Drafter 与 Target 共享 KV-cache 和 activations,无需重新计算上下文!

📊 性能实测数据

Google 官方数据

根据 MLX-VLM 项目在 Apple Silicon 上的实测:
26B-A4B: 3.94× 加速(Apple Silicon,batch size 4)
31B: 2.29× 加速(Apple Silicon,batch size 4)
E4B: 1.56× 加速(Apple Silicon,batch size 4)
真实体验:大多数开发者硬件上的平均加速为 1.7× - 2.2×,已经非常可观了!

🚀 Google Gemma 4 爆发 3 倍性能提升!MTP Drafter 让本地 AI 飞起来

🛠️ 如何在 Apple Silicon 上使用

就在 3 天前,Google 为 Gemma 4 系列模型发布了 MTP Drafter(Multi-Token Prediction Drafter),这是本地 AI 推理的一次重大突破——最高 3 倍推理加速,而且完全无损输出质量。

环境准备

📰 核心速览

安装 MLX-VLM(已支持 MTP Drafter):
💡
发布时间:2026 年 5 月 6 日 | 性能提升:最高 3× | 关键优势:零质量损失 | 支持平台:MLX、vLLM、Ollama
pip install mlx-vlm

🚀 什么是 MTP Drafter?

基础使用示例

使用 MTP Drafter 加速推理:

传统推理 vs MTP 推理

python -m mlx_vlm.generate --model gemma-4-31B-it --draft-model gemma-4-31B-it-assistant --draft-kind mtp --prompt "解释量子计算" --max-tokens 256
传统方式(慢):每个 token → 完整前向传播 → 下一个 token,速度:1 token/步骤

🎯 模型对应关系

每个 Gemma 4 模型都有对应的 MTP Drafter:
MTP Drafter(快):小模型预测 N 个 token → 大模型并行验证 → 一次接受多个,速度:N 个 token/步骤(当接受率高时)

技术原理

  • gemma-4-E2B-it → gemma-4-E2B-it-assistant
  • gemma-4-E4B-it → gemma-4-E4B-it-assistant
MTP Drafter 采用了推测解码(Speculative Decoding)技术:
  1. 轻量级 Drafter(仅 74M 参数)快速预测多个未来 token
  • gemma-4-26B-A4B-it → gemma-4-26B-A4B-it-assistant
  • gemma-4-31B-it → gemma-4-31B-it-assistant
  1. 重量级 Target(如 31B 参数)并行验证这些预测

⚠️ 兼容性说明

  1. 接受机制:预测正确则全部接受,错误则从该位置重试

完全支持

💡
关键创新:Drafter 与 Target 共享 KV-cache 和 activations,无需重新计算上下文!
官方 Gemma 4 模型:最佳兼容性,最高加速

📊 性能实测数据

MLX、vLLM、Ollama:主流推理框架都已支持

Google 官方数据

根据 MLX-VLM 项目在 Apple Silicon 上的实测:

有限支持

26B-A4B: 3.94× 加速(Apple Silicon,batch size 4)
微调/越狱模型:可以使用 MTP Drafter,但加速效果会显著降低。原因:权重改变导致 Drafter 预测与 Target 不匹配,预期:Acceptance Rate 下降,加速效果 0-0.5×
💡
注意:如果使用微调模型,不建议启用 MTP Drafter,因为加速效果不明显。
31B: 2.29× 加速(Apple Silicon,batch size 4)

💡 使用建议

E4B: 1.56× 加速(Apple Silicon,batch size 4)
1. 大模型优先:26B-A4B 和 31B 模型收益最大
真实体验:大多数开发者硬件上的平均加速为 1.7× - 2.2×,已经非常可观了!
2. 合理 Batch Size:Apple Silicon 建议 4-8
3. Draft Block Size:建议 3-4,过大会降低接受率

🛠️ 如何在 Apple Silicon 上使用

4. Temperature = 0:贪婪解码时效果最佳

环境准备

🔗 相关资源

Google AI - MTP Overview: https://ai.google.dev/gemma/docs/mtp/overview
MLX-VLM GitHub: https://github.com/Blaizzy/mlx-vlm
安装 MLX-VLM(已支持 MTP Drafter):
pip install mlx-vlm
Ars Technica 深度分析: https://arstechnica.com/ai/2026/05/googles-gemma-4-open-ai-models-use-speculative-decoding-to-get-up-to-3x-faster/

基础使用示例

📝 总结

使用 MTP Drafter 加速推理:
Google 的 MTP Drafter 是本地 AI 推理的重要进步:
优势:显著加速(1.5-3×)| 零质量损失 | 易于集成 | 多平台支持
限制:仅限 Gemma 4 系列 | 微调模型效果有限 | 需要下载额外 Drafter 模型
python -m mlx_vlm.generate --model gemma-4-31B-it --draft-model gemma-4-31B-it-assistant --draft-kind mtp --prompt "解释量子计算" --max-tokens 256

🎯 模型对应关系

推荐:强烈推荐启用 MTP Drafter,这是免费的性能提升!
每个 Gemma 4 模型都有对应的 MTP Drafter:
  • gemma-4-E2B-it → gemma-4-E2B-it-assistant
  • gemma-4-E4B-it → gemma-4-E4B-it-assistant
  • gemma-4-26B-A4B-it → gemma-4-26B-A4B-it-assistant
  • gemma-4-31B-it → gemma-4-31B-it-assistant

⚠️ 兼容性说明

完全支持

官方 Gemma 4 模型:最佳兼容性,最高加速
MLX、vLLM、Ollama:主流推理框架都已支持

有限支持

微调/越狱模型:可以使用 MTP Drafter,但加速效果会显著降低。原因:权重改变导致 Drafter 预测与 Target 不匹配,预期:Acceptance Rate 下降,加速效果 0-0.5×
💡
注意:如果使用微调模型,不建议启用 MTP Drafter,因为加速效果不明显。

💡 使用建议

1. 大模型优先:26B-A4B 和 31B 模型收益最大
2. 合理 Batch Size:Apple Silicon 建议 4-8
3. Draft Block Size:建议 3-4,过大会降低接受率
4. Temperature = 0:贪婪解码时效果最佳

🔗 相关资源

Google AI - MTP Overview: https://ai.google.dev/gemma/docs/mtp/overview
MLX-VLM GitHub: https://github.com/Blaizzy/mlx-vlm
Ars Technica 深度分析: https://arstechnica.com/ai/2026/05/googles-gemma-4-open-ai-models-use-speculative-decoding-to-get-up-to-3x-faster/

📝 总结

Google 的 MTP Drafter 是本地 AI 推理的重要进步:
优势:显著加速(1.5-3×)| 零质量损失 | 易于集成 | 多平台支持
限制:仅限 Gemma 4 系列 | 微调模型效果有限 | 需要下载额外 Drafter 模型
推荐:强烈推荐启用 MTP Drafter,这是免费的性能提升!
分享到:

相关文章

返回首页