AI 装机指南 — 本地跑 Qwen 3.6 27B + Wan2GP 全设备对比

01 🧠 为什么以 Qwen 3.6 27B 作为门槛？

Qwen 3.6 27B 是消费级 AI 的"甜点"——大到足够好用（接近 GPT-4 水平），小到还能被消费级硬件装下。能跑 27B 的设备也能跑几乎所有其他消费级 AI 任务。

💡

24GB 是消费级 GPU 天花板（RTX 5090 D v2 / RX 7900 XTX）。Q4_K_M 量化下 27B 模型刚好能塞进 24GB，是「一张卡能跑」与「需要专业设备」的分水岭。

量化方式	VRAM 需求	24GB 显卡	说明
Q4_K_M	~16.1 GB	✅ 刚好能跑	推荐，质量与速度平衡
Q5_K_M	~18.9 GB	✅ 有余量	更高质量，推荐
Q6_K	~22.1 GB	⚠️ 几乎打满	剩余空间极少
Q8_0	~28.8 GB	❌ 超出	需要 >24GB 统一内存
FP16	~54 GB	❌ 远超	需要专业卡/统一内存

📊 VRAM 需求 vs 24GB 天花板

🎬

视频生成重叠需求：Wan2GP 480p=6GB, 720p=12-16GB, 1080p=24GB+。一张 24GB 显卡同时覆盖 Qwen 3.6 27B Q4 和 Wan2GP 720p，是性价比最优解。

02 📐 五大硬件维度

LLM 推理瓶颈在内存带宽。以下是影响本地大模型运行的五大关键维度。

💾

显存/内存容量

决定「能不能装下」

⚡

内存带宽

决定生成速度 (tokens/s)

🔥

算力 TFLOPS

决定 prompt 处理速度

🛠️

软件生态

CUDA > ROCm > MLX

🔗

统一 vs 独立显存

容量-速度取舍

📋

上下文长度

决定「能记多长」

🔊

噪音与散热

决定「能不能放桌面」

理论 tokens/s = 内存带宽 (GB/s) ÷ 模型量化体积 (GB)

📋

上下文长度（Context Length）：模型在一次对话里能"记住"多少内容，由 KV 缓存占用的显存决定。KV 缓存大小 ≈ 2 × 层数 × KV头 × head_dim × context_len × 2字节。Qwen3.6-27B 每个 token 约占 256 KB 显存。 24GB 独显（扣掉 ~16.1 GB 模型权重后剩余 ~7.9 GB）可支撑完整 32768 token 上下文；8 GB 混合推理的笔电仅剩约 1.7 GB，推荐设置 8192 token（Ollama：PARAMETER num_ctx 8192）。

Token 换算成实际内容（Qwen 分词器）：

上下文长度	英文	中文	代码
8,192 token	~6,000 词 (~12 页)	~12,000 字 (~25 页)	~500-800 行
32,768 token	~24,000 词 (~48 页)	~48,000 字 (~100 页)	~2,000-3,200 行

上下文溢出会怎样？对话超出上下文窗口后，最早的消息被自动丢弃（滑动窗口机制），模型"忘记"之前说过的话。具体表现：① 系统提示词被挤出窗口 → 回答风格跑偏、不再遵循角色设定；② 长对话中模型不记得你之前的要求，反复追问相同问题；③ RAG 场景下检索到的参考文档被截断，关键信息遗漏。此外，8 GB 设备如果把 num_ctx 设得过大，KV 缓存会从 GPU 显存溢出到 CPU 内存，生成速度从 GPU 带宽（~500 GB/s）骤降至 CPU 带宽（~60 GB/s），速度下降 8-10 倍。

03 🖥️ 设备清单与价格

A. 台式组装机 — RTX 5090 D v2 方案

配件	规格	价格 (¥)	备注
CPU	AMD Ryzen 9 9950X (16C/32T)	~4,299	京东第三方
主板	X870E 高端 ATX	~2,599	京东自营
GPU	NVIDIA RTX 5090 D v2 24GB GDDR7	16,499-16,999	英伟达 MSRP / 京东
内存	DDR5 64GB (32×2) 6000	4,600-5,200	DRAM 涨价后
SSD	2TB NVMe PCIe 5.0	~1,299	京东自营
电源	1200W ATX 3.0 金牌	~1,199	京东自营
机箱+散热	全塔 + 360水冷	~899	京东自营
合计		31,394-32,894	推荐方案

A2. 台式组装机 — RX 7900 XTX 高性价比方案

配件	规格	价格 (¥)	备注
CPU	AMD Ryzen 7 9700X (8C/16T)	~2,199	京东第三方
主板	B650 中端 ATX	~1,099	京东自营
GPU	AMD RX 7900 XTX 24GB GDDR6	~6,499	京东自营
内存	DDR5 64GB (32×2) 6000	4,600-5,200	DRAM 涨价后
SSD	2TB NVMe PCIe 4.0	~899	京东自营
电源	850W ATX 3.0 金牌	~699	京东自营
机箱+散热	中塔 + 360水冷	~699	京东自营
合计		16,694-17,294	性价比之选

⚠️

ROCm 生态提醒：RX 7900 XTX 使用 ROCm 而非 CUDA，部分模型/工具需要额外适配。Ollama 已原生支持 AMD GPU，但 PyTorch 生态下 CUDA 兼容性仍优于 ROCm。适合愿意折腾的用户。

⚠️

DRAM 涨价警告：2025 Q4 - 2026 Q1，三星/SK海力士/美光合约价涨幅约 100%（EET-China 报道）。DDR5 内存价格已较 2025 年中翻倍。网上仍有 ¥1,200-1,500 的过时报价，那是涨价前的数据，已不具参考价值。

DDR5 内存价格专题（2026.04 实际行情）

📊 DDR5 内存价格对比（2026 年 4 月）（64GB 为估算值）

品牌	容量	频率	价格 (¥)	来源
金百达银爵	32GB (16×2)	DDR5 6000 C36	2,599	用户京东截图
海盗船	32GB (16×2)	DDR5 6000	~2,299	知乎 2026-04
威刚 D300	32GB (16×2)	DDR5 6000	~2,800	知乎 2026-04
英睿达	32GB (16×2)	DDR5 6000	~2,879	用户京东截图
金百达银爵	64GB (32×2)	DDR5 6000	~4,600-5,200	按 32GB 估算
雷克沙	64GB (32×2)	DDR5 6000	~4,998	用户京东截图

B. 笔记本电脑

🎮 联想 Y9000P 2025 在售

¥25,499

CPUUltra 9 285HX

GPURTX 5090 移动 24GB

内存64GB DDR5

存储2TB SSD

Q4 tok/s 📐~56

噪音🔊 50-55 dB（满载）

🍎 MacBook Pro 16" M5 Max 在售

¥35,999-57,999

芯片M5 Max (18+40)

统一内存48-128GB

带宽614 GB/s

接口Thunderbolt 5, Wi-Fi 7

Q4 tok/s 📐~38 (128GB)

噪音🔇 ~25-35 dB（极静）

MacBook Pro M5 Max 128GB 2TB 官网价 ~¥42,999（国补 ~¥40,999）。2026年3月11日开售。来源：V2EX + 苹果官网 + 36氪评测

C. 苹果台式机 — Mac Studio

🖥️ Mac Studio M4 Max 在售

¥16,499 起

GPU40核

最高内存128GB 统一

带宽546 GB/s

128GB 价~¥29,999

Q4 tok/s 📐~34

噪音🔇 ~25-30 dB（极静）

🖥️ Mac Studio M3 Ultra 在售

¥32,999 起

GPU80核

最高内存256GB 统一

带宽819 GB/s

256GB 价~¥47,999

Q4 tok/s 📐~51

噪音🔇 ~28-32 dB（极静）

💡

Apple Silicon 核心优势：超大统一内存（128GB/256GB），可跑 72B+ 甚至 235B 模型。这是任何消费级 NVIDIA 显卡做不到的。M3 Ultra 256GB 可跑 Qwen 3.6 235B Q2_K。

D. AI 专用主机

🤖 NVIDIA DGX Spark ✅ 中国代理在售

¥30,000-40,000

芯片GB10 Grace Blackwell

统一内存128GB LPDDR5x

带宽273 GB/s

算力1,000 AI TOPS (FP4)

Q4 tok/s 📐~17

噪音🔇 ~0 dB（被动散热）

🔴 AMD Strix Halo 395 OEM

¥15,000-25,000

芯片Ryzen AI Max+ 395

统一内存128GB LPDDR5x

带宽~256 GB/s

核显RDNA 3.5, 40 CU

Q4 tok/s 📐~16

噪音🔊 35-45 dB（OEM 定）

⚠️

DGX Spark 和 Strix Halo 带宽较低（256-273 GB/s），LLM 推理仅 ~16-17 tok/s。优势是大容量统一内存，但速度偏慢，且无独立 GPU 不适合视频生成。

E. 独立显卡（台式机升级/组装用）

显卡	显存	带宽	价格 (¥)	状态
RTX 5090 D v2	24GB GDDR7	1,344 GB/s	16,499-16,999	✅ 在售
RX 7900 XTX	24GB GDDR6	960 GB/s	6,499	✅ 在售
RTX 4090 D	24GB GDDR6X	1,008 GB/s	20,000-40,000+	❌ 停产
RX 9070 XT	16GB GDDR6	—	~4,999	⚠️ 仅16GB不够

RTX 5090 D 原版 (32GB/512-bit/GDDR7) 已被禁售，当前销售的是 v2 版本 (24GB/384-bit)。性能差距约 4%。

04 📊 硬件能力对比

💰 价格全景（¥，取中位数）

⚡ 推理速度 (tokens/s, Q4_K_M)

💾 显存/内存容量 (GB)

🔄 内存带宽 (GB/s)

完整对比矩阵

设备	显存/内存	带宽	Q4 tok/s 📐	推荐 ctx	Wan2GP	噪音	生态	价格 (¥)	性价比
RTX 5090 D v2 台式	24GB GDDR7	1,344 GB/s	~83	32768	✅ 720p	🔊 48-55 dB	CUDA ⭐	31,000-33,000	⭐⭐⭐⭐⭐
RX 7900 XTX 台式	24GB GDDR7	960 GB/s	~60	32768	✅ 720p	🔊 40-48 dB	ROCm ⚠️	16,700-17,300	⭐⭐⭐⭐
Y9000P RTX5090	24GB GDDR7	~900 GB/s	~56	32768	✅ 720p	🔊 50-55 dB	CUDA ⭐	25,499	⭐⭐⭐⭐
MacBook Pro 16" M5 Max	128GB 统一	614 GB/s	~38	32768	⚠️ 480p	🔇 25-35 dB	MLX	35,999-57,999	⭐⭐⭐
Mac Studio M4 Max	128GB 统一	546 GB/s	~34	32768	⚠️ 480p	🔇 25-30 dB	MLX	16,499-42,000	⭐⭐⭐⭐
Mac Studio M3 Ultra	256GB 统一	819 GB/s	~51	32768	⚠️ 720p	🔇 28-32 dB	MLX	32,999-108,749	⭐⭐⭐
DGX Spark	128GB LPDDR5x	273 GB/s	~17	32768	❌ 无GPU	🔇 ~0 dB	CUDA	30,000-40,000	⭐⭐
Strix Halo 395	128GB LPDDR5x	~256 GB/s	~16	32768	❌ 核显弱	🔊 35-45 dB	ROCm	15,000-25,000	⭐⭐
RTX 4070 Laptop 8GB （混合推理）	8GB GDDR6	504 GB/s	~5-10	8192 ⚠️	❌ VRAM不足	🔊 45-50 dB	CUDA	参考整机价	⭐⭐

💡

速度 vs 容量取舍：NVIDIA/AMD 独显带宽高（900-1,344 GB/s）但显存固定 24GB；Apple 统一内存容量大（128-256GB）但带宽低（273-819 GB/s）。如果主要跑 27B 模型，显存 24GB 够用，NVIDIA 带宽优势明显。如果需要跑 72B+，必须选 Apple 统一内存。

📋

上下文长度取舍：24GB 独显扣掉模型权重后剩余 ~7.9 GB，可装下完整 32768 token（~48,000 汉字）KV 缓存。8 GB 笔记本仅剩 ~1.7 GB，推荐 num_ctx 8192（~12,000 汉字）。溢出后果详见 §02。

🔊

噪音取舍：台式机配 5090 D v2（600W TDP）高负载 ~48-55 dB，相当于嘈杂办公室；RX 7900 XTX（355W TDP）~40-48 dB，明显更安静。Mac Studio / DGX Spark 接近静音（~25-35 dB）。游戏本满载 50-55 dB，不适合安静环境长时间使用。详见下方矩阵「噪音」列。

05 🌳 选购决策树

🎯 你的核心需求是什么？

🚀 纯 LLM 推理 + 视频生成，预算 < 3.5万 → RTX 5090 D v2 台式机

✅ 最快推理（~83 tok/s）+ CUDA 生态完善 + Wan2GP 720p¥31,000-33,000

💰 预算 < 2万 → RX 7900 XTX 台式机

⚠️ ROCm 生态不如 CUDA，部分模型需适配¥16,700-17,300

🧠 需要跑 72B+ 大模型 → Apple 统一内存

Mac Studio M4 Max 128GB — 性价比之选~¥30,000

MacBook Pro M5 Max 128GB — 便携 + 大模型~¥43,000

Mac Studio M3 Ultra 256GB — 极限容量~¥48,000

💼 需要便携 + 大模型 → 笔记本

MacBook Pro 16" M5 Max 128GB — 统一内存~¥43,000

Y9000P RTX5090 — CUDA 但仅 24GB¥25,499

🔬 开发/调试 AI，桌面极简 → DGX Spark

✅ 中国代理有现货；⚠️ 带宽低推理慢；无独立 GPU，视频生成受限¥30,000-40,000

🪙 极限预算，只要能跑 → 最便宜方案

RX 7900 XTX 台式整机（Ryzen 7 9700X + 64GB DDR5）¥16,700-17,300

06 📦 在售状态汇总

🎮 RTX 5090 D v2 ✅ 在售

🔴 RX 7900 XTX ✅ 在售

💻 Y9000P RTX5090 ✅ 在售

🍎 MacBook Pro M5 全系列 ✅ 在售

🖥️ Mac Studio M4 Max ✅ 在售

🖥️ Mac Studio M3 Ultra ✅ 在售

🤖 DGX Spark ✅ 中国代理在售

🎮 RTX 4090 D ❌ 停产

🚫 RTX 5090 D 原版 (32GB) ❌ 禁售

07 📚 数据来源与免责声明

⚠️

重要免责：本文数据为互联网搜集整理，除特别注明外均为估算值，非官方实测数据。推理速度（tokens/s）基于「带宽÷参数量」理论推算，非实际 Benchmark。价格可能随市场波动，请以购买时实际报价为准。建议有购买意向的读者自行核实各电商平台当日价格。

📌

数据可信度分级：⭐⭐⭐ 官方规格（Apple 官网、NVIDIA 官网）| ⭐⭐ 第三方媒体报道（带具体日期/链接）| ⭐ 估算/推断/无链接来源

RTX 5090 D v2 价格 ⭐⭐ — 英伟达 MSRP ¥16,499 / 京东第三方；规格：IT之家、ZOL
RTX 5090 D v2 台式机组装总价 ⭐ — 各配件价格推算求和，非整机实际报价
RTX 5090 D 原版禁售 ⭐⭐ — 腾讯新闻报道，需核实禁售令最新状态
RX 7900 XTX 价格 ⭐⭐ — gpuxianka 2025 报价；2026 年价格可能已变动，建议核实
Mac Studio M4 Max 定价 ⭐⭐⭐ — 苹果官网；¥16,499 为 36GB 版，128GB 版约 ¥29,999
Mac Studio M3 Ultra 定价 ⭐⭐⭐ — 苹果官网
MacBook Pro M5 定价 ⭐⭐ — V2EX 汇总帖（需核实当日价格）、苹果官网、36氪评测
DGX Spark 价格/参数 ⭐⭐ — 新浪财经等媒体报道；中国代理已有现货，实际售价约 ¥30,000-40,000，建议购买前核实当日报价
Y9000P RTX5090 价格 ⭐⭐ — 知乎 RTX5090 笔记本购买指南；需核实具体 SKU 配置
DDR5 内存价格 ⭐~⭐⭐ — 部分来自用户截图（可信），部分"按 32GB 估算"（纯估算）
Apple M5 Max 带宽 614 GB/s ⭐⭐⭐ — Apple 官方技术规格页
所有 tok/s 推理速度 ⭐ — 纯理论推算（公式：带宽 GB/s ÷ 模型体积 GB），非 Ollama/llama.cpp 实际测试结果
Strix Halo 带宽 ~256 GB/s ⭐⭐ — ~ 符号表示非官方确认值
Qwen 3.6 27B VRAM 需求 ⭐⭐ — 参考 llama.cpp 量化表，非针对 Qwen 3.6 27B 专项测试