M5 Pro 跑完 5 个维度,本地 AI 到底能做什么

M5 Pro 跑完 5 个维度,本地 AI 到底能做什么

2026/05/1511 分钟
分类:AI技术
标签:#AI#工具#开发
本地 AI · 全维度实测
M5 Pro 跑完 5 个维度本地 AI 到底能做什么
LLM · TTS · 图像 · 视频 · 视觉理解全部真实数据 · 提示词可复现 · 无修饰
2026年5月 · M5 Pro 64GB · 无API · 纯本地
今年 5 月,我在 MacBook Pro M5 Pro 64GB 上做了一次完整的本地 AI 评测。不联网,不调 API,全程本地推理——测了大语言模型、语音合成、图像生成、视频生成、视觉理解,五个维度,每个测试都包含完整提示词、参数、输出结果和效果评价。

一、LLM 文字能力:4 个模型同台竞技

测了 Qwen3.6 和 Gemma4 各两个版本,每个模型做 10 道通用能力题 + 8 道安全越狱测试。
生成速度与内存占用对比(实测)
生成速度与内存占用对比(实测)
模型
参数
架构
速度
内存
安全
Gemma4-E4B
4B
Dense
74.5 tok/s
4.3 GB
87.5% ✅
Gemma4-31B-U
31B
Dense
13.1 tok/s
11.5 GB
25% ❌
Qwen3.6-27B
27B
Dense
16.0 tok/s
14.4 GB
87.5% ✅
Qwen3.6-35B-MoE
35B(激活3B)
MoE
79.7 tok/s ⚡
7.6 GB
25% ❌
安全边界测试通过率(越狱测试)
安全边界测试通过率(越狱测试)
💡
⚡ MoE 的实质优势:35B 总参数每次只激活 3B,速度 79.7 tok/s,内存仅 7.6GB——比 Dense 27B 快 5 倍,内存少 47%。
💡
🔍 意外黑马:Gemma4-E4B 只有 4B,安全测试 87.5%,比参数 7 倍的 Gemma4-31B 还高。
⚠️
⚠️ Uncensored 代价:两个去除安全限制的模型对所有越狱测试 0 拒绝,灵活性和安全性是真实的权衡。

二、TTS 语音合成:mlx-audio Metal 加速实测

使用 mlx-audio(Metal 原生加速)驱动 Qwen3-TTS-1.7B-VoiceDesign,文静声音。
RTF(实时率)对比:mlx-audio Metal加速 vs 官方qwen-tts CPU强制
RTF(实时率)对比:mlx-audio Metal加速 vs 官方qwen-tts CPU强制
RTF 是什么?
RTF(Real-Time Factor,实时率)= 生成时间 ÷ 音频时长
RTF = 1.83 → 生成 1 秒音频需要等 1.83 秒(比实时慢 1.83 倍) RTF = 30 → 生成 1 秒音频需要等 30 秒(比实时慢 30 倍) RTF < 1 → 真正实时,比说话速度还快
通俗理解:你说一句 10 秒的话,RTF=1.83 的 TTS 需要 18.3 秒生成;RTF=30 的需要等 5 分钟。
实测结果(文静声音 · Metal GPU)
RTF = 1.83 · 生成 11.4s 音频耗时 6.25s · 峰值内存 9.06GB · 9分钟视频配音约 16 分钟
场景
音频
M5 Pro mlx-audio
RTX 4090
差距
90s 短视频
90s
2.7 分钟
27秒
~6×
3 分钟视频
3min
5.5 分钟
54秒
~6×
本次口播稿
9min
16 分钟
~3 分钟
~6×
15 分钟视频
15min
27 分钟
~5 分钟
~6×
💡
💡 mlx-audio 走 Metal GPU,RTF=1.83,生产完全可用。官方 qwen-tts 强制 CPU,RTF=30,相差 16 倍。Apple Silicon 的 TTS 能力没问题,是官方包的工程债问题。

三、图像生成:FLUX.1-dev 全流程实测

名词解释 — 看这里先
FLUX.1-dev:目前最强的开源文生图模型之一(Black Forest Labs 出品),12B 参数,支持高精度写实和创意风格。本地运行需要 CPU offload(MPS 不支持全量 float16),因此速度较慢。
LoRA:Low-Rank Adaptation,一种微调技术。在基础模型上附加一个小型适配层,注入特定人物/风格的特征,无需重新训练整个大模型。触发词(Trigger Word)= 在 Prompt 中写上特定词(如 HYTChi),激活 LoRA 的效果。
生成参数:Steps(去噪步数,越多越精细但越慢)、CFG Scale(提示词服从度,越高越贴近 Prompt 但可能过于饱和)、Seed(随机种子,固定后结果可复现)。
冷启动 vs 热缓存:首次生成时模型权重从磁盘加载到 Metal GPU 内存,耗时最长。后续生成权重已驻留缓存,速度提升约 3×。
测试设计:5 个不同场景考察 FLUX 的风格泛化能力(自然风景、赛博朋克城市、人物写真、抽象艺术、产品摄影),全部使用相同生成参数。
5 张普通生成 + 3 张 LoRA 身份生成的耗时(含热缓存效应)
5 张普通生成 + 3 张 LoRA 身份生成的耗时(含热缓存效应)
📸 FLUX.1-dev 普通文生图(5 张,无 LoRA)

场景 1:自然风景

FLUX.1-dev 生成结果(1024×1024)
FLUX.1-dev 生成结果(1024×1024)
✅ ✅ 完美匹配:雪山、清澈湖泊倒影、松树林、黄金时刻光晕全部准确呈现。细节精度高,近景岩石清晰,远景有景深感。FLUX 对自然风景场景的理解和表达能力优秀。

场景 2:赛博朋克城市夜景

FLUX.1-dev 生成结果(1024×1024)
FLUX.1-dev 生成结果(1024×1024)
✅ ✅ 高度准确:赛博朋克城市街景,霓虹灯光、湿路反光、高耸楼群、行人剪影、中文招牌全部到位。构图具有强烈的电影感,视觉冲击力强。FLUX 对复杂城市场景的理解非常准确。

场景 3:专业商务人像

FLUX.1-dev 生成结果(1024×1024)
FLUX.1-dev 生成结果(1024×1024)
✅ ✅ 完全准确:亚洲男性,30多岁,深色西装,叉手姿势,专业灰色背景,棚拍光线均匀,面部清晰锐利。注意:这是 FLUX 完全虚构生成的人物,并非真实照片,说明其人像写实能力已达到以假乱真的水平。

场景 4:抽象液态金属

FLUX.1-dev 生成结果(1024×1024)
FLUX.1-dev 生成结果(1024×1024)
✅ ✅ 完美匹配:深蓝+金色配色精准,液态金属旋涡质感真实,微距细节可见金色闪光粒子,整体画面极具设计感。FLUX 对抽象概念的视觉化理解令人印象深刻。

场景 5:AI 机器人产品图

FLUX.1-dev 生成结果(1024×1024)
FLUX.1-dev 生成结果(1024×1024)
✅ ✅ 完美匹配:白色圆润机器人,白背景,干净的商业产品摄影风格,三维感和材质感都很强。这张是热缓存第5张,仅用346秒,比冷启动快 3 倍,充分体现了 Metal buffer 热缓存的加速效果。
💡
💡 FLUX 普通生成总结:5 张图 5 条 Prompt 全部准确落地,说明 FLUX.1-dev 的语义理解能力非常强,从自然风景到赛博朋克、从人像到抽象艺术都能准确表达。主要短板是速度——冷启动 17 分钟,限制了日常批量使用。
🪪 FLUX + HYTChi LoRA v3:个人身份克隆
LoRA 身份克隆的工作原理
训练阶段:用本人多角度照片微调 FLUX,让模型记住特定人物的面部特征,并绑定到触发词 HYTChi。
使用阶段:在任何 Prompt 中加入触发词,模型会将该人物的面部特征「注入」到生成结果中,并与 Prompt 中的场景/姿态/服装描述融合。
本次使用:HYTChi_flux_lora_v3.safetensors | LoRA Scale=1.0 | 其余参数与普通生成相同

身份克隆 1:商务头像

生成结果:商务头像
生成结果:商务头像
✅ 面部特征准确激活:亚洲男性,面部轮廓与训练数据一致;深色西装、棚拍光线、自信表情全部符合 Prompt。注意衣物换成了黑色毛衣+西装外套(非 Prompt 中的 blazer),但整体场景准确。LoRA 对人物身份特征的绑定效果稳定。

身份克隆 2:休闲户外

生成结果:休闲户外生活照
生成结果:休闲户外生活照
✅ 场景非常准确:城市街道户外,深蓝色休闲夹克,自然光,眼镜(LoRA 学到的面部特征之一)。面部特征与商务版高度一致,说明 LoRA 跨场景的身份锁定稳定。Prompt 中「warm smile」未完全体现(表情偏中性),是 FLUX 的小瑕疵。

身份克隆 3:科技演讲者

生成结果:科技演讲者
生成结果:科技演讲者
⚠️
⚠️ 场景元素准确,但手部出现明显错误:舞台灯光、麦克风、演讲姿势场景符合 Prompt;服装印有「HYTCHI」变形字样(LoRA 身份渗透现象);三张图面部特征一致。但经人工核查:右手持麦处和左手展开处出现多余手臂/手指分叉——这是扩散模型至今未彻底解决的「手部幻觉」经典问题,复杂手势动作(双手张开、手持物品)仍是 FLUX 的明显短板。如需用于实际场景,需要后期修图或重新生成。
💡
💡 LoRA 身份克隆总结:三张图面部特征跨场景保持一致,触发词机制有效。LoRA 在图像域做到了「换背景/换姿势,保持身份」——这正是视频域 I2V 未能解决的问题(视频中人脸 5 帧后漂移)。静态图像身份克隆可用,动态视频身份克隆本地暂无解。

四、视频生成:LTX-2.3 MLX 全流程实测

名词解释 — 看这里先
T2V(Text-to-Video 文生视频):只给文字描述,让模型凭空生成视频。纯粹考验模型对文字的理解和视频生成能力。
I2V(Image-to-Video 图生视频):给一张图片 + 文字描述,让模型以这张图为第一帧,生成后续的动态视频。理论上能保留图片中的人物/场景,驱动他/它运动。
Distilled 蒸馏模式:经过蒸馏压缩的快速生成模式,步数少,速度快(1~2 分钟),质量略低。
Two-Stage 两阶段模式:先生成低分辨率草稿,再精细化放大,步数多,速度慢(8~12 分钟),质量更高。
测试设计:4 个场景 × 2 种生成模式 = 8 条视频,覆盖 T2V 和 I2V 两种任务类型。所有提示词均为英文(LTX 官方推荐语言)。
8 条视频生成耗时对比(蒸馏模式 1~2 分钟,两阶段 8~12 分钟)
8 条视频生成耗时对比(蒸馏模式 1~2 分钟,两阶段 8~12 分钟)
📹 T2V 文生视频:完全由 Prompt 驱动
以下两个场景不提供任何输入图,模型完全依靠文字描述凭空生成视频内容。

场景一:城市夜间街道

LTX-2.3 生成 · 41帧 · 512×768 · 耗时 68s
LTX-2.3 生成 · 41帧 · 512×768 · 耗时 68s
⚠️
⚠️ 生成了室内场景(车库+人物+白色汽车),与 Prompt「城市夜间街道+霓虹灯」明显偏差。模型理解了「人+汽车+工业感」,但忽略了「夜晚+户外+霓虹」等关键词。

场景一:城市夜间街道

LTX-2.3 生成 · 25帧 · 512×768 · 耗时 526s(8.7分钟)
LTX-2.3 生成 · 25帧 · 512×768 · 耗时 526s(8.7分钟)
✅ 质量显著提升:生成了真实欧式建筑街景,有人物和人群,符合「城市街道+人物」描述。两阶段耗时 8.7 分钟,是蒸馏版的 7.7 倍,但画面质量明显更好。

场景二:科技实验室

LTX-2.3 生成 · 41帧 · 512×768 · 耗时 71s
LTX-2.3 生成 · 41帧 · 512×768 · 耗时 71s
❌ 生成了女性人物面部特写,完全忽略了 Prompt 核心要素(手、键盘、实验室、蓝色灯光)。蒸馏模式对复杂场景描述的理解能力明显不足。

场景二:科技实验室

LTX-2.3 生成 · 25帧 · 512×768 · 耗时 549s(9.2分钟)
LTX-2.3 生成 · 25帧 · 512×768 · 耗时 549s(9.2分钟)
⚠️
⚠️ 生成了男性人物+手势+背景屏幕,有「人+屏幕」元素,比蒸馏版更接近 Prompt 意图。但「手部特写打键盘」的核心动作未出现,仍是人物整体镜头。
🖼️ → 📹 I2V 图生视频:以图片为起始帧驱动运动
以下两个场景需要提供一张输入图片作为第一帧,Prompt 描述希望图中主体做出的动作。测试使用的输入图是 picsum 随机图库中的一张巴哥犬(哈巴狗)照片,这是测试数据选取的失误——原本应该是人物照片。但恰好验证了一个关键问题:LTX I2V 能否保持输入对象的身份、并按 Prompt 驱动运动?

场景三:图中主体「说话」

输入图(I2V 起始帧):实为巴哥犬照片,测试数据选取失误
输入图(I2V 起始帧):实为巴哥犬照片,测试数据选取失误
LTX-2.3 生成 · 41帧 · 512×768 · 耗时 80s
LTX-2.3 生成 · 41帧 · 512×768 · 耗时 80s
⚠️
⚠️ 模型保持了狗的形象(未幻觉成人),生成了狗在「动嘴」的视频,勉强符合 Prompt 中「头部运动+面部表情」的描述。但这验证了 I2V 无法保持真实人脸一致性的问题——若输入真实人物照片,5帧后人脸就会漂移变形。

场景三:图中主体「说话」

输入图(I2V 起始帧):巴哥犬照片
输入图(I2V 起始帧):巴哥犬照片
LTX-2.3 生成 · 25帧 · 512×768 · 耗时 738s(12.3分钟)
LTX-2.3 生成 · 25帧 · 512×768 · 耗时 738s(12.3分钟)
⚠️
⚠️ 两阶段版狗的面部细节更清晰,嘴巴明显张开——更接近「说话」动作。耗时 12.3 分钟。再次验证:I2V 能驱动运动,但无法保持人物身份,因此无法用于真人视频克隆。
分享到:

相关文章

返回首页