Gemma 4 性能暴增 3 倍!MTP Drafter 解锁本地 AI 新速度

Gemma 4 性能暴增 3 倍!MTP Drafter 解锁本地 AI 新速度

2026/05/093 分钟
分类:技术前沿
标签:#AI#Gemma4#MLX#AppleSilicon#推理加速

⚡ Google Gemma 4 爆发 3 倍性能提升!MTP Drafter 让本地 AI 飞起来

就在 5 月 6 日,Google 为 Gemma 4 系列模型发布了 MTP Drafter,这是本地 AI 推理的一次重大突破——最高 3 倍推理加速,而且完全无损输出质量。

一、3 天前的大新闻:MTP Drafter 来了

💡 核心速览:发布时间 2026.05.06 | 最高 3× 加速 | 零质量损失 | 支持 MLX/vLLM/Ollama

1.1 性能实测数据

根据 MLX-VLM 项目在 Apple Silicon 上的实测:
模型
硬件
Batch Size
加速倍数
26B-A4B
Apple Silicon
4
3.94× ⚡⚡⚡
31B
Apple Silicon
4
2.29× ⚡⚡
E4B
Apple Silicon
4
1.56× ⚡
真实体验:大多数开发者硬件上的平均加速为 1.7× - 2.2×,已经非常可观了!
notion image
🔗 来源:Google AI官方发布 (2026.05.06)

二、技术原理:为什么能加速?

2.1 传统推理 vs MTP 推理

传统方式(慢):每个 token → 完整前向传播 → 下一个 token
MTP Drafter(快):小模型预测 N 个 token → 大模型并行验证 → 一次接受多个

2.2 MTP Drafter 的创新

MTP Drafter 采用了推测解码技术:
  1. 轻量级 Drafter(仅 74M 参数)快速预测多个未来 token
  1. 重量级 Target(如 31B 参数)并行验证这些预测
  1. 接受机制:预测正确则全部接受,错误则从该位置重试
💡
💡 关键创新:Drafter 与 Target 共享 KV-cache 和 activations,无需重新计算上下文!

三、如何在 Apple Silicon 上使用

3.1 环境准备

pip install mlx-vlm

3.2 基础使用示例

python -m mlx_vlm.generate --model gemma-4-31B-it --draft-model gemma-4-31B-it-assistant --draft-kind mtp
notion image
🔬 Apple Silicon上的AI推理加速测试

3.3 模型对应关系

每个 Gemma 4 模型都有对应的 MTP Drafter:
Target 模型
Drafter 模型
LM Head 类型
gemma-4-E2B-it
gemma-4-E2B-it-assistant
centroid (sparse)
gemma-4-E4B-it
gemma-4-E4B-it-assistant
centroid (sparse)
gemma-4-26B-A4B-it
gemma-4-26B-A4B-it-assistant
tied dense
gemma-4-31B-it
gemma-4-31B-it-assistant
tied dense

四、兼容性说明(重要)

  • ✅ 官方 Gemma 4 模型:最佳兼容性,最高加速
  • ✅ MLX、vLLM、Ollama:主流推理框架都已支持
⚠️
⚠️ 微调/越狱模型:加速效果会显著降低
  • ❌ 其他模型系列:MTP Drafter 专为 Gemma 4 设计

五、使用建议

  1. 大模型优先:26B-A4B 和 31B 模型收益最大
  1. 合理 Batch Size:Apple Silicon 建议 4-8
  1. Draft Block Size:建议 3-4
  1. Temperature = 0:贪婪解码时效果最佳
场景
推荐度
说明
官方模型生产环境
⭐⭐⭐⭐⭐
明显加速,零质量损失
大模型离线部署
⭐⭐⭐⭐⭐
2-3× 加速
小模型实时应用
⭐⭐⭐
加速有限
微调/越狱模型
⭐⭐
效果不佳

六、相关资源

  • 📚 Google AI - MTP Overview
  • 📚 MLX-VLM GitHub
  • 📖 Ars Technica深度分析
notion image
🎨 多Token预测技术架构示意图

七、总结

Google 的 MTP Drafter 是本地 AI 推理的重要进步:
✅ 优势:显著加速(1.5-3×)| 零质量损失 | 易于集成 | 多平台支持
⚠️ 限制:仅限 Gemma 4 系列 | 微调模型效果有限 | 需要下载额外 Drafter 模型
🎯 推荐:强烈推荐启用 MTP Drafter,这是免费的性能提升!
分享到:

相关文章

返回首页