本地 AI · 全维度实测
M5 Pro 跑完 5 个维度本地 AI 到底能做什么
LLM · TTS · 图像 · 视频 · 视觉理解全部真实数据 · 提示词可复现 · 无修饰
2026年5月 · M5 Pro 64GB · 无API · 纯本地
今年 5 月,我在 MacBook Pro M5 Pro 64GB 上做了一次完整的本地 AI 评测。不联网,不调 API,全程本地推理——测了大语言模型、语音合成、图像生成、视频生成、视觉理解,五个维度,每个测试都包含完整提示词、参数、输出结果和效果评价。
一、LLM 文字能力:4 个模型同台竞技
测了 Qwen3.6 和 Gemma4 各两个版本,每个模型做 10 道通用能力题 + 8 道安全越狱测试。
模型 | 参数 | 架构 | 速度 | 内存 | 安全 |
Gemma4-E4B | 4B | Dense | 74.5 tok/s | 4.3 GB | 87.5% ✅ |
Gemma4-31B-U | 31B | Dense | 13.1 tok/s | 11.5 GB | 25% ❌ |
Qwen3.6-27B | 27B | Dense | 16.0 tok/s | 14.4 GB | 87.5% ✅ |
Qwen3.6-35B-MoE | 35B(激活3B) | MoE | 79.7 tok/s ⚡ | 7.6 GB | 25% ❌ |
⚡ MoE 的实质优势:35B 总参数每次只激活 3B,速度 79.7 tok/s,内存仅 7.6GB——比 Dense 27B 快 5 倍,内存少 47%。
🔍 意外黑马:Gemma4-E4B 只有 4B,安全测试 87.5%,比参数 7 倍的 Gemma4-31B 还高。
⚠️ Uncensored 代价:两个去除安全限制的模型对所有越狱测试 0 拒绝,灵活性和安全性是真实的权衡。
二、TTS 语音合成:mlx-audio Metal 加速 + UP主声音克隆
使用 mlx-audio(Metal 原生加速)驱动 Qwen3-TTS,同时使用 Qwen3-TTS-12Hz-Base 进行 UP主声音克隆,实现零样本声音迁移。
RTF 是什么?
RTF(Real-Time Factor,实时率)= 生成时间 ÷ 音频时长
RTF = 1.83 → 生成 1 秒音频需要等 1.83 秒(比实时慢 1.83 倍)RTF = 30 → 生成 1 秒音频需要等 30 秒(比实时慢 30 倍)RTF < 1 → 真正实时,比说话速度还快
通俗理解:你说一句 10 秒的话,RTF=1.83 的 TTS 需要 18.3 秒生成;RTF=30 的需要等 5 分钟。
实测结果(VoiceDesign · Metal GPU)
RTF = 1.83 · 生成 11.4s 音频耗时 6.25s · 峰值内存 9.06GB
新增:UP主声音克隆 · Metal GPU · Qwen3-TTS-12Hz-Base
RTF = 0.49 · 比实时还快 · 6 段口播稿全部生成完成
mlx-audio + Qwen3-TTS-12Hz-Base 声音克隆:RTF = 0.49,比实时还快。使用 UP主录播音频作为参考,成功克隆音色。
两种模式对比:VoiceDesign(文字描述声音)RTF=1.83,声音克隆(参考音频迁移)RTF=0.49。声音克隆更快、更自然,适合固定音色需求的批量内容生产。
技术实现细节(2026-05-17 更新)
Qwen3-TTS-12Hz-Base 模型完全可用,声音保真度高
mlx-audio CLI 的 --ref-audio / --ref_text 参数有bug,需使用 Python API
参考音频准备:提取前5秒 + 转换为24kHz单声道
ref_text 参数:只需包含前5秒对应内容(约20字),不能用完整转录
参考音频预处理命令:
ffmpeg -i 参考音频.wav -t 5 -ar 24000 -ac 1 ref_5s.wav
Python API 调用示例:
from qwen_tts import Qwen3TTSModel model = Qwen3TTSModel.from_pretrained(MODEL_PATH, device_map="cpu") wavs, sr = model.generate_voice_clone( text="要生成的文本", ref_audio="ref_5s.wav", ref_text="前5秒对应的文本内容" )
实测数据(M5 Pro 64GB · CPU 推理):
• 短文本(11字):1.92s
• Benchmark(78字):15.04s
• RTF ≈ 1.0(接近实时,Metal GPU 加速可达 RTF=0.49)
三、图像生成:FLUX.1-dev 全流程实测
名词解释 — 看这里先
FLUX.1-dev:目前最强的开源文生图模型之一(Black Forest Labs 出品),12B 参数,支持高精度写实和创意风格。本地运行需要 CPU offload(MPS 不支持全量 float16),因此速度较慢。
LoRA:Low-Rank Adaptation,一种微调技术。在基础模型上附加一个小型适配层,注入特定人物/风格的特征,无需重新训练整个大模型。触发词(Trigger Word)= 在 Prompt 中写上特定词(如 HYTChi),激活 LoRA 的效果。
生成参数:Steps(去噪步数,越多越精细但越慢)、CFG Scale(提示词服从度,越高越贴近 Prompt 但可能过于饱和)、Seed(随机种子,固定后结果可复现)。
冷启动 vs 热缓存:首次生成时模型权重从磁盘加载到 Metal GPU 内存,耗时最长。后续生成权重已驻留缓存,速度提升约 3×。
测试设计:5 个不同场景考察 FLUX 的风格泛化能力(自然风景、赛博朋克城市、人物写真、抽象艺术、产品摄影),全部使用相同生成参数。
📸 FLUX.1-dev 普通文生图(5 张,无 LoRA)
场景 1:自然风景
✅ ✅ 完美匹配:雪山、清澈湖泊倒影、松树林、黄金时刻光晕全部准确呈现。细节精度高,近景岩石清晰,远景有景深感。FLUX 对自然风景场景的理解和表达能力优秀。
场景 2:赛博朋克城市夜景
✅ ✅ 高度准确:赛博朋克城市街景,霓虹灯光、湿路反光、高耸楼群、行人剪影、中文招牌全部到位。构图具有强烈的电影感,视觉冲击力强。FLUX 对复杂城市场景的理解非常准确。
场景 3:专业商务人像
✅ ✅ 完全准确:亚洲男性,30多岁,深色西装,叉手姿势,专业灰色背景,棚拍光线均匀,面部清晰锐利。注意:这是 FLUX 完全虚构生成的人物,并非真实照片,说明其人像写实能力已达到以假乱真的水平。
场景 4:抽象液态金属
✅ ✅ 完美匹配:深蓝+金色配色精准,液态金属旋涡质感真实,微距细节可见金色闪光粒子,整体画面极具设计感。FLUX 对抽象概念的视觉化理解令人印象深刻。
场景 5:AI 机器人产品图
✅ ✅ 完美匹配:白色圆润机器人,白背景,干净的商业产品摄影风格,三维感和材质感都很强。这张是热缓存第5张,仅用346秒,比冷启动快 3 倍,充分体现了 Metal buffer 热缓存的加速效果。
💡 FLUX 普通生成总结:5 张图 5 条 Prompt 全部准确落地,说明 FLUX.1-dev 的语义理解能力非常强,从自然风景到赛博朋克、从人像到抽象艺术都能准确表达。主要短板是速度——冷启动 17 分钟,限制了日常批量使用。
🪪 FLUX + HYTChi LoRA v3:个人身份克隆
LoRA 身份克隆的工作原理
训练阶段:用本人多角度照片微调 FLUX,让模型记住特定人物的面部特征,并绑定到触发词 HYTChi。
使用阶段:在任何 Prompt 中加入触发词,模型会将该人物的面部特征「注入」到生成结果中,并与 Prompt 中的场景/姿态/服装描述融合。
本次使用:HYTChi_flux_lora_v3.safetensors | LoRA Scale=1.0 | 其余参数与普通生成相同
身份克隆 1:商务头像
✅ 面部特征准确激活:亚洲男性,面部轮廓与训练数据一致;深色西装、棚拍光线、自信表情全部符合 Prompt。注意衣物换成了黑色毛衣+西装外套(非 Prompt 中的 blazer),但整体场景准确。LoRA 对人物身份特征的绑定效果稳定。
身份克隆 2:休闲户外
✅ 场景非常准确:城市街道户外,深蓝色休闲夹克,自然光,眼镜(LoRA 学到的面部特征之一)。面部特征与商务版高度一致,说明 LoRA 跨场景的身份锁定稳定。Prompt 中「warm smile」未完全体现(表情偏中性),是 FLUX 的小瑕疵。
身份克隆 3:科技演讲者
⚠️ 场景元素准确,但手部出现明显错误:舞台灯光、麦克风、演讲姿势场景符合 Prompt;服装印有「HYTCHI」变形字样(LoRA 身份渗透现象);三张图面部特征一致。但经人工核查:右手持麦处和左手展开处出现多余手臂/手指分叉——这是扩散模型至今未彻底解决的「手部幻觉」经典问题,复杂手势动作(双手张开、手持物品)仍是 FLUX 的明显短板。如需用于实际场景,需要后期修图或重新生成。
💡 LoRA 身份克隆总结:三张图面部特征跨场景保持一致,触发词机制有效。LoRA 在图像域做到了「换背景/换姿势,保持身份」——这正是视频域 I2V 未能解决的问题(视频中人脸 5 帧后漂移)。静态图像身份克隆可用,动态视频身份克隆本地暂无解。
四、视频生成:LTX-2.3 MLX 全流程实测
名词解释 — 看这里先
T2V(Text-to-Video 文生视频):只给文字描述,让模型凭空生成视频。纯粹考验模型对文字的理解和视频生成能力。
I2V(Image-to-Video 图生视频):给一张图片 + 文字描述,让模型以这张图为第一帧,生成后续的动态视频。理论上能保留图片中的人物/场景,驱动他/它运动。
Distilled 蒸馏模式:经过蒸馏压缩的快速生成模式,步数少,速度快(1~2 分钟),质量略低。
Two-Stage 两阶段模式:先生成低分辨率草稿,再精细化放大,步数多,速度慢(8~12 分钟),质量更高。
测试设计:4 个场景 × 2 种生成模式 = 8 条视频,覆盖 T2V 和 I2V 两种任务类型。所有提示词均为英文(LTX 官方推荐语言)。
📹 T2V 文生视频:完全由 Prompt 驱动
以下两个场景不提供任何输入图,模型完全依靠文字描述凭空生成视频内容。
场景一:城市夜间街道
生成了室内场景(车库+人物+白色汽车),与 Prompt「城市夜间街道+霓虹灯」明显偏差。模型理解了「人+汽车+工业感」,但忽略了「夜晚+户外+霓虹」等关键词。
场景一:城市夜间街道
质量显著提升:生成了真实欧式建筑街景,有人物和人群,符合「城市街道+人物」描述。两阶段耗时 8.7 分钟,是蒸馏版的 7.7 倍,但画面质量明显更好。
场景二:科技实验室
生成了女性人物面部特写,完全忽略了 Prompt 核心要素(手、键盘、实验室、蓝色灯光)。蒸馏模式对复杂场景描述的理解能力明显不足。
场景二:科技实验室
生成了男性人物+手势+背景屏幕,有「人+屏幕」元素,比蒸馏版更接近 Prompt 意图。但「手部特写打键盘」的核心动作未出现,仍是人物整体镜头。
🖼️ → 📹 I2V 图生视频:以图片为起始帧驱动运动
以下两个场景需要提供一张输入图片作为第一帧,Prompt 描述希望图中主体做出的动作。测试使用的输入图是 picsum 随机图库中的一张巴哥犬(哈巴狗)照片,这是测试数据选取的失误——原本应该是人物照片。但恰好验证了一个关键问题:LTX I2V 能否保持输入对象的身份、并按 Prompt 驱动运动?
场景三:图中主体「说话」
模型保持了狗的形象(未幻觉成人),生成了狗在「动嘴」的视频,勉强符合 Prompt 中「头部运动+面部表情」的描述。但这验证了 I2V 无法保持真实人脸一致性的问题——若输入真实人物照片,5帧后人脸就会漂移变形。
📊 综合评价
维度 | 蒸馏模式 | 两阶段模式 |
生成速度 | 68~109s(快) | 180~738s(慢) |
Prompt 跟随度 | 偏差大(⚠️ 两条明显偏) | 明显优于蒸馏版 |
I2V 身份保持 | 5帧后人脸漂移 | 同样漂移,无法克隆真人 |
适合场景 | 快速原型验证 | 对质量有要求的场景 |
本地视频生成的当前定位:适合做创意原型(「大概是这个感觉」),不适合生产级内容。Prompt 需要足够简单直接,复杂场景描述的理解能力有限。
个人身份视频克隆 = 本地不可行:I2V 能驱动图中主体运动,但无法锁定人脸身份。需要专用的 Identity Preservation 技术(如 IP-Adapter、InstantID),这些目前在 M5 Pro 上没有可用的 MLX 实现。
五、视觉理解:Qwen2-VL-7B 七项测试
✅ 优秀:OCR + 图表 + 代码识别
⚠️ 有趣意外:人物分析测试图实为哈巴狗
❌ 弱项:细节幻觉 + 多图混淆
六、总结
能力 | 可用性 | 说明 |
实时 LLM 对话 | ✅ 完全可用 | MoE 79 tok/s,流畅 |
视觉理解(单图) | ✅ 完全可用 | OCR/图表/代码 |
本地 TTS 配音(Metal GPU) | ✅ 完全可用 | mlx-audio RTF=0.49,UP主声音克隆 |
图像生成(偶发) | ⚠️ 受限可用 | 热缓存后 6 分钟/张 |
视频原型(蒸馏) | ⚠️ 受限可用 | 1~2 分钟,内容有偏差 |
视频人脸一致性 | ❌ 不可用 | 需 H100 级算力 |
批量图像生产 | ❌ 不可用 | 冷启动 17 分钟/张 |
最出人意料的发现
4B 的 Gemma4-E4B,在速度和安全性上同时打败了 27B 和 31B 的大模型
在 Apple Silicon 上,小而快的模型有时比大而全更有价值。参数量只是一个维度——架构、对齐训练、量化方式,每一个都在影响最终表现。
所有测试在 M5 Pro 64GB 本地完成,无 API 调用。提示词、参数均已如实标注,结果可复现。数据时间:2026 年 5 月。
分享到:
