M5 Pro 跑完 5 个维度，本地 AI 到底能做什么

2026/05/1511 分钟

分类：AI技术

标签：#AI#工具#开发

本地 AI · 全维度实测

M5 Pro 跑完 5 个维度本地 AI 到底能做什么

LLM · TTS · 图像 · 视频 · 视觉理解全部真实数据 · 提示词可复现 · 无修饰

2026年5月 · M5 Pro 64GB · 无API · 纯本地

今年 5 月，我在 MacBook Pro M5 Pro 64GB 上做了一次完整的本地 AI 评测。不联网，不调 API，全程本地推理——测了大语言模型、语音合成、图像生成、视频生成、视觉理解，五个维度，每个测试都包含完整提示词、参数、输出结果和效果评价。

一、LLM 文字能力：4 个模型同台竞技

测了 Qwen3.6 和 Gemma4 各两个版本，每个模型做 10 道通用能力题 + 8 道安全越狱测试。

模型	参数	架构	速度	内存	安全
Gemma4-E4B	4B	Dense	74.5 tok/s	4.3 GB	87.5% ✅
Gemma4-31B-U	31B	Dense	13.1 tok/s	11.5 GB	25% ❌
Qwen3.6-27B	27B	Dense	16.0 tok/s	14.4 GB	87.5% ✅
Qwen3.6-35B-MoE	35B(激活3B)	MoE	79.7 tok/s ⚡	7.6 GB	25% ❌

💡

⚡ MoE 的实质优势：35B 总参数每次只激活 3B，速度 79.7 tok/s，内存仅 7.6GB——比 Dense 27B 快 5 倍，内存少 47%。

💡

🔍 意外黑马：Gemma4-E4B 只有 4B，安全测试 87.5%，比参数 7 倍的 Gemma4-31B 还高。

⚠️

⚠️ Uncensored 代价：两个去除安全限制的模型对所有越狱测试 0 拒绝，灵活性和安全性是真实的权衡。

二、TTS 语音合成：mlx-audio Metal 加速实测

使用 mlx-audio（Metal 原生加速）驱动 Qwen3-TTS-1.7B-VoiceDesign，文静声音。

RTF（实时率）对比：mlx-audio Metal加速 vs 官方qwen-tts CPU强制

RTF 是什么？

RTF（Real-Time Factor，实时率）= 生成时间 ÷ 音频时长

RTF = 1.83 → 生成 1 秒音频需要等 1.83 秒（比实时慢 1.83 倍） RTF = 30 → 生成 1 秒音频需要等 30 秒（比实时慢 30 倍） RTF < 1 → 真正实时，比说话速度还快

通俗理解：你说一句 10 秒的话，RTF=1.83 的 TTS 需要 18.3 秒生成；RTF=30 的需要等 5 分钟。

实测结果（文静声音 · Metal GPU）

RTF = 1.83 · 生成 11.4s 音频耗时 6.25s · 峰值内存 9.06GB · 9分钟视频配音约 16 分钟

场景	音频	M5 Pro mlx-audio	RTX 4090	差距
90s 短视频	90s	2.7 分钟	27秒	~6×
3 分钟视频	3min	5.5 分钟	54秒	~6×
本次口播稿	9min	16 分钟	~3 分钟	~6×
15 分钟视频	15min	27 分钟	~5 分钟	~6×

💡

💡 mlx-audio 走 Metal GPU，RTF=1.83，生产完全可用。官方 qwen-tts 强制 CPU，RTF=30，相差 16 倍。Apple Silicon 的 TTS 能力没问题，是官方包的工程债问题。

三、图像生成：FLUX.1-dev 全流程实测

名词解释 — 看这里先

FLUX.1-dev：目前最强的开源文生图模型之一（Black Forest Labs 出品），12B 参数，支持高精度写实和创意风格。本地运行需要 CPU offload（MPS 不支持全量 float16），因此速度较慢。

LoRA：Low-Rank Adaptation，一种微调技术。在基础模型上附加一个小型适配层，注入特定人物/风格的特征，无需重新训练整个大模型。触发词（Trigger Word）= 在 Prompt 中写上特定词（如 HYTChi），激活 LoRA 的效果。

生成参数：Steps（去噪步数，越多越精细但越慢）、CFG Scale（提示词服从度，越高越贴近 Prompt 但可能过于饱和）、Seed（随机种子，固定后结果可复现）。

冷启动 vs 热缓存：首次生成时模型权重从磁盘加载到 Metal GPU 内存，耗时最长。后续生成权重已驻留缓存，速度提升约 3×。

测试设计：5 个不同场景考察 FLUX 的风格泛化能力（自然风景、赛博朋克城市、人物写真、抽象艺术、产品摄影），全部使用相同生成参数。

📸 FLUX.1-dev 普通文生图（5 张，无 LoRA）

场景 1：自然风景

✅

✅ ✅ 完美匹配：雪山、清澈湖泊倒影、松树林、黄金时刻光晕全部准确呈现。细节精度高，近景岩石清晰，远景有景深感。FLUX 对自然风景场景的理解和表达能力优秀。

场景 2：赛博朋克城市夜景

✅

✅ ✅ 高度准确：赛博朋克城市街景，霓虹灯光、湿路反光、高耸楼群、行人剪影、中文招牌全部到位。构图具有强烈的电影感，视觉冲击力强。FLUX 对复杂城市场景的理解非常准确。

场景 3：专业商务人像

✅

✅ ✅ 完全准确：亚洲男性，30多岁，深色西装，叉手姿势，专业灰色背景，棚拍光线均匀，面部清晰锐利。注意：这是 FLUX 完全虚构生成的人物，并非真实照片，说明其人像写实能力已达到以假乱真的水平。

场景 4：抽象液态金属

✅

✅ ✅ 完美匹配：深蓝+金色配色精准，液态金属旋涡质感真实，微距细节可见金色闪光粒子，整体画面极具设计感。FLUX 对抽象概念的视觉化理解令人印象深刻。

场景 5：AI 机器人产品图

✅

✅ ✅ 完美匹配：白色圆润机器人，白背景，干净的商业产品摄影风格，三维感和材质感都很强。这张是热缓存第5张，仅用346秒，比冷启动快 3 倍，充分体现了 Metal buffer 热缓存的加速效果。

💡

💡 FLUX 普通生成总结：5 张图 5 条 Prompt 全部准确落地，说明 FLUX.1-dev 的语义理解能力非常强，从自然风景到赛博朋克、从人像到抽象艺术都能准确表达。主要短板是速度——冷启动 17 分钟，限制了日常批量使用。

🪪 FLUX + HYTChi LoRA v3：个人身份克隆

LoRA 身份克隆的工作原理

训练阶段：用本人多角度照片微调 FLUX，让模型记住特定人物的面部特征，并绑定到触发词 HYTChi。

使用阶段：在任何 Prompt 中加入触发词，模型会将该人物的面部特征「注入」到生成结果中，并与 Prompt 中的场景/姿态/服装描述融合。

本次使用：HYTChi_flux_lora_v3.safetensors | LoRA Scale=1.0 | 其余参数与普通生成相同

身份克隆 1：商务头像

✅

✅ 面部特征准确激活：亚洲男性，面部轮廓与训练数据一致；深色西装、棚拍光线、自信表情全部符合 Prompt。注意衣物换成了黑色毛衣+西装外套（非 Prompt 中的 blazer），但整体场景准确。LoRA 对人物身份特征的绑定效果稳定。

身份克隆 2：休闲户外

✅

✅ 场景非常准确：城市街道户外，深蓝色休闲夹克，自然光，眼镜（LoRA 学到的面部特征之一）。面部特征与商务版高度一致，说明 LoRA 跨场景的身份锁定稳定。Prompt 中「warm smile」未完全体现（表情偏中性），是 FLUX 的小瑕疵。

身份克隆 3：科技演讲者

⚠️

⚠️ 场景元素准确，但手部出现明显错误：舞台灯光、麦克风、演讲姿势场景符合 Prompt；服装印有「HYTCHI」变形字样（LoRA 身份渗透现象）；三张图面部特征一致。但经人工核查：右手持麦处和左手展开处出现多余手臂/手指分叉——这是扩散模型至今未彻底解决的「手部幻觉」经典问题，复杂手势动作（双手张开、手持物品）仍是 FLUX 的明显短板。如需用于实际场景，需要后期修图或重新生成。

💡

💡 LoRA 身份克隆总结：三张图面部特征跨场景保持一致，触发词机制有效。LoRA 在图像域做到了「换背景/换姿势，保持身份」——这正是视频域 I2V 未能解决的问题（视频中人脸 5 帧后漂移）。静态图像身份克隆可用，动态视频身份克隆本地暂无解。

四、视频生成：LTX-2.3 MLX 全流程实测

名词解释 — 看这里先

T2V（Text-to-Video 文生视频）：只给文字描述，让模型凭空生成视频。纯粹考验模型对文字的理解和视频生成能力。

I2V（Image-to-Video 图生视频）：给一张图片 + 文字描述，让模型以这张图为第一帧，生成后续的动态视频。理论上能保留图片中的人物/场景，驱动他/它运动。

Distilled 蒸馏模式：经过蒸馏压缩的快速生成模式，步数少，速度快（1~2 分钟），质量略低。

Two-Stage 两阶段模式：先生成低分辨率草稿，再精细化放大，步数多，速度慢（8~12 分钟），质量更高。

测试设计：4 个场景 × 2 种生成模式 = 8 条视频，覆盖 T2V 和 I2V 两种任务类型。所有提示词均为英文（LTX 官方推荐语言）。

📹 T2V 文生视频：完全由 Prompt 驱动

以下两个场景不提供任何输入图，模型完全依靠文字描述凭空生成视频内容。

场景一：城市夜间街道

⚠️

⚠️ 生成了室内场景（车库+人物+白色汽车），与 Prompt「城市夜间街道+霓虹灯」明显偏差。模型理解了「人+汽车+工业感」，但忽略了「夜晚+户外+霓虹」等关键词。

场景一：城市夜间街道

LTX-2.3 生成 · 25帧 · 512×768 · 耗时 526s（8.7分钟）

✅

✅ 质量显著提升：生成了真实欧式建筑街景，有人物和人群，符合「城市街道+人物」描述。两阶段耗时 8.7 分钟，是蒸馏版的 7.7 倍，但画面质量明显更好。

场景二：科技实验室

❌

❌ 生成了女性人物面部特写，完全忽略了 Prompt 核心要素（手、键盘、实验室、蓝色灯光）。蒸馏模式对复杂场景描述的理解能力明显不足。

场景二：科技实验室

LTX-2.3 生成 · 25帧 · 512×768 · 耗时 549s（9.2分钟）

⚠️

⚠️ 生成了男性人物+手势+背景屏幕，有「人+屏幕」元素，比蒸馏版更接近 Prompt 意图。但「手部特写打键盘」的核心动作未出现，仍是人物整体镜头。

🖼️ → 📹 I2V 图生视频：以图片为起始帧驱动运动

以下两个场景需要提供一张输入图片作为第一帧，Prompt 描述希望图中主体做出的动作。测试使用的输入图是 picsum 随机图库中的一张巴哥犬（哈巴狗）照片，这是测试数据选取的失误——原本应该是人物照片。但恰好验证了一个关键问题：LTX I2V 能否保持输入对象的身份、并按 Prompt 驱动运动？

场景三：图中主体「说话」

⚠️

⚠️ 模型保持了狗的形象（未幻觉成人），生成了狗在「动嘴」的视频，勉强符合 Prompt 中「头部运动+面部表情」的描述。但这验证了 I2V 无法保持真实人脸一致性的问题——若输入真实人物照片，5帧后人脸就会漂移变形。

场景三：图中主体「说话」

LTX-2.3 生成 · 25帧 · 512×768 · 耗时 738s（12.3分钟）

⚠️

⚠️ 两阶段版狗的面部细节更清晰，嘴巴明显张开——更接近「说话」动作。耗时 12.3 分钟。再次验证：I2V 能驱动运动，但无法保持人物身份，因此无法用于真人视频克隆。

分享到：

M5 Pro 跑完 5 个维度，本地 AI 到底能做什么

一、LLM 文字能力：4 个模型同台竞技

二、TTS 语音合成：mlx-audio Metal 加速实测

三、图像生成：FLUX.1-dev 全流程实测

场景 1：自然风景

场景 2：赛博朋克城市夜景

场景 3：专业商务人像

场景 4：抽象液态金属

场景 5：AI 机器人产品图

身份克隆 1：商务头像

身份克隆 2：休闲户外

身份克隆 3：科技演讲者

四、视频生成：LTX-2.3 MLX 全流程实测

场景一：城市夜间街道

场景一：城市夜间街道

场景二：科技实验室

场景二：科技实验室

场景三：图中主体「说话」

场景三：图中主体「说话」

相关文章

AI开始自己进化了？DeepMind的新系统把我吓到了

我用 AI + 命令行，零设计软件做了一套频道品牌素材

快乐生蚝 Happy Oyster：阿里世界模型的产品野心与技术深潜