本文基于本地大模型横评文件生成,首发于黑粉科技。
本文配套有视频版,在各大平台推送

五个大模型做同一份电影报告 谁真的会干活?
同一提示词,同一份素材,交付 Excel + Word + PPT 三件套。 这次不看口号,看文件。
黑粉科技 · 2026-05-31 · 本地横评
这次测试很像把五位同事拉进会议室,发同一摞材料,然后说:今天下班前给我交一份 Excel 分析表、一份 Word 报告、一份 PPT 汇报。
参赛选手是 Codex、Claude、DeepSeek V4 Flash Free、GLM、MiniMax。前期电影数据各模型自己搜集,但为了让“文件生成”这件事公平,最终统一使用 Codex 搜集整理的电影数据作为素材参考。这里要先说明:DeepSeek 这一轮没有进行数据搜索部分的测试,所以它不适合当作完整端到端样本来对比。
所以这篇文章的判断口径是“体验感 + 交付可用性”:既看前面的数据搜集,也看给定统一素材后,模型能不能把 Excel、Word、PPT 做成可核验、可阅读、可汇报的成品。本文不再给具体分数,避免把主观体验伪装成精确量化。
先说结论:Codex 小胜 Claude
如果只给一句话结论:Codex 第一,Claude 第二,GLM 第三,MiniMax 第四,DeepSeek 第五。 本次 Codex 使用 GPT-5.5 中推理,Claude Code 使用 Opus 4.8 中推理。Codex 赢在端到端,尤其数据搜集和 Excel 底稿;Claude 赢在报告分析和风险说明,但整体略输一点点。后面三位差距不大,GLM 只比 MiniMax 稍好,DeepSeek 因为没有进行数据搜索部分测试,排在最后。
体验排名 | 模型 | 最强项 | 明显短板 |
1 | Codex | 数据搜集、Excel 公式、图表、三件套一致性 | Word 深度略短 |
2 | Claude | 报告深度、异常说明、整体叙事 | Excel 图表原生化不足 |
3 | GLM | 整体结构略好于 MiniMax | PPT/Word 体验都不够理想 |
4 | MiniMax | 价格便宜,文字长度够 | Excel、PPT、结构化排版偏弱 |
5 | DeepSeek | 文件生成有框架 | 未测试数据搜索,PPT 和 Word 体验偏弱 |
※ 这是体验排名,不是精确量化分数;DeepSeek 没有参加数据搜索部分测试。
模型 | 测试配置 | 价格信息 | 放进体验里的含义 |
Codex | GPT-5.5 中推理 | 20 美元/月 | 端到端能力最强,价格和 Claude 接近 |
Claude Code | Opus 4.8 中推理 | 20 美元/月 | 报告质量最强,但整体略低于 Codex |
GLM 国际版 Pro | Pro 版套餐 | 优惠 81 美元/3个月;官网数据使用量约为 Claude Code 的 15 倍 | 量大,但本次体验排名第三 |
MiniMax | MiniMax 2.7 | 290 元人民币/年 | 明显便宜,适合轻量使用,但交付质量不在第一梯队 |
DeepSeek | 未进行数据搜索测试 | 本次不纳入价格比较 | 不能做完整端到端性价比判断 |
※ 价格按本次用户提供信息记录,实际订阅价格可能随地区、活动和套餐变化。
测试题到底难在哪里?
这道题表面是“电影数据分析”,实际是在考模型的三种能力:数据清洗、办公文件生成、跨文件一致性。
- Excel 要能核验:清洗后数据、统计分析、Top5、地区汇总都要用公式,不能把结果硬贴进去。
- Word 要像报告:1500-2500 字,必须讲数据范围、缺失、异常、票房、评分、类型地区、票房 vs 评分洞察。
- PPT 要能汇报:6-8 页,每页一个核心信息,最好有柱状图、饼图等可视化。
- 三件套必须一致:比如总票房、Top1 影片,在 Excel、Word、PPT 里不能互相打架。
这类任务最怕“看起来很完整”。因为模型很容易把 Word 写得顺,把 PPT 做得漂亮,但 Excel 公式错了、统计口径漂了,最后整套报告就变成精装修错题本。
客观指标:先把文件摊开看
我先不谈感受,直接抽取每个模型的成品结构:Excel 有多少公式、有没有图表,Word 有多少正文、有没有标题层级和表格,PPT 是否满足页数要求、是否真的有图表或图片。但注意,对象数量不等于体验质量,尤其 PPT 这一项,GLM、MiniMax、DeepSeek 的实际阅读体验都偏弱。
模型 | Excel公式 | Excel图表 | Word字数 | Word标题 | Word表格 | PPT页数 | PPT可视化 |
Codex | 172 | 2 | 1713 | 6 | 1 | 7 | 5个PPT图表 |
Claude | 139 | 0 | 2338 | 9 | 2 | 8 | 4张图表图片 |
DeepSeek | 51 | 2 | 2210 | 6 | 3 | 8 | 4个PPT图表 |
GLM | 78 | 0 | 2230 | 0 | 4 | 8 | 10个PPT图表 |
MiniMax | 6 | 0 | 2347 | 0 | 0 | 7 | 无明显图表 |
※ 这些数字来自本地 xlsx/docx/pptx 文件结构抽取;Word 标题指真实 Heading 样式,不是正文里写了“一、二、三”。
这里有个很关键的分水岭:Codex 和 Claude 都大量使用公式,说明它们理解了“关键统计单元格需用 Excel 公式实现”。MiniMax 只有 6 个公式,基本只能算“有个统计页”,离可复核分析表还差不少。
另一个分水岭是样式和结构。Claude、Codex、DeepSeek 的 Word 都有真实标题层级;GLM 和 MiniMax 虽然正文里写了“一、二、三”,但没有用 Word Heading 样式。人眼能看懂,机器目录、导航窗格、后续自动排版就不友好了。
Codex:像一个谨慎的数据工程师
Codex 的最大亮点是 Excel。它的 `movie_analysis.xlsx` 有 172 个公式,两张表,统计页覆盖类型平均票房/评分、票房 Top5、评分 Top5、地区影片数量与总票房,还带了 2 个 Excel 原生图表。
更重要的是,它对数据口径比较克制。比如票房字段里有精确值、有“>=”下限值、有缺失值,Codex 明确使用“可确认下限口径”:精确票房按原值计入,`>=` 只按下限计入,缺失不补零、不估算。
这就是数据工作里很重要的品质:我不知道的,就说不知道;我只能确认下限,就不要假装知道真实值。
它的 Word 报告是 1713 字,在要求的 1500-2500 字范围内,结构清楚,但相比 Claude 少了一点“解释力”。读起来像一份标准分析报告,干净、保守、可交差;但如果要发公众号,情绪和洞察还要再加工。
Codex 的一句话评价: 本次使用 GPT-5.5 中推理。Excel 最强、口径最稳、三件套一致性好;短板是报告不够会讲故事。
Claude:像一个会写报告的高级分析师
Claude 的强项非常明显:它知道读者需要先理解数据质量,再理解结论。
它的 Word 报告有 2338 字、9 个标题、2 个表格,是五个模型里最像“正式咨询报告”的。它不只是说有缺失,还具体指出:票房仅 8/30 部有值,其中精确值只有 3 部;评分缺失 13 部;《钟馗》《森林之声》存在“有评分人数却无评分”的逻辑矛盾;《纵横四海》《记忆碎片》疑似经典重映,评分人数可能是历史累计。
这部分很加分。因为真正的数据分析不是“把数字排个榜”,而是先告诉你:这些数字有哪些能信,哪些只能参考,哪些可能会误导。
Claude 的 Excel 也不错,有 139 个公式,但没有 Excel 原生图表;PPT 则用 4 张图表图片完成可视化。这种策略很务实:它不一定把所有东西都做成 Office 原生对象,但最终给人的阅读体验是完整的。
Claude 的一句话评价: 本次 Claude Code 使用 Opus 4.8 中推理。它最会解释数据,最会提醒风险,最像可以直接交给老板看的版本。
DeepSeek:最大问题是没测数据搜索
DeepSeek 的第一眼观感不差:Excel 有 3 个 sheet,其中还专门做了“图表”页;Word 有 2210 字、3 个表格;PPT 有 8 页,也有图表对象。但这次必须单独说明:DeepSeek 没有进行前置数据搜索部分的测试,因此它不是完整端到端对比样本。
最典型的问题在 Excel。它在类型统计里用了类似 `AVERAGEIF(清洗后数据!C:C,A5,...)` 的公式,但原始类型字段经常是“剧情 / 悬疑 / 犯罪”这种多标签字符串。没有通配符时,很多包含关系匹配不到,统计结果就容易失真。
这类错误很隐蔽:表格里确实有公式,公式看起来也像那么回事,但它回答的不是你真正问的问题。
它的报告里还有一个口径问题:一边说“下限值未纳入均值与排名”,一边又要完成 Top5 和地区统计。这个选择不一定错,但需要非常清楚地解释“为什么排除下限值”。否则用户会看到 Codex/Claude 统计 8 部有票房,DeepSeek 只拿 3 部精确票房说事,横向结论自然会偏窄。
DeepSeek 的一句话评价: 文件生成有框架,但未参加数据搜索测试;再加上公式口径、Word/PPT 体验都不够稳,所以排在最后。
GLM:比 MiniMax 稍好,但也不算好用
GLM 做了 8 页 PPT,文件里能抽取到 10 个 PPT 原生图表对象。但这不代表它的 PPT 体验就好。实际看下来,它和 MiniMax、DeepSeek 一样,离“可以舒服拿去讲”的汇报稿还有距离,只是整体结构比 MiniMax 稍微顺一点。
但 GLM 的 Word 有个典型问题:正文看起来分了章节,文件结构里却没有真实 Heading 样式。也就是说,它像是在纸面上写了标题,但没有告诉 Word“这真的是标题”。
它的 Excel 有 78 个公式,比 MiniMax 强一些,但没有 Excel 图表。整体感觉是:GLM 能完成基础框架,体验上略高于 MiniMax;但如果你要严谨数据底稿和可直接展示的 PPT,它还需要人工重做一大截。
GLM 的一句话评价: 整体比 MiniMax 稍好,但 PPT、Word、数据底稿都不够省心。
MiniMax:字数够,但办公自动化味道最淡
MiniMax 的 Word 有 2347 字,单看长度是够的;PPT 也有 7 页,满足题目 6-8 页要求。但它的问题是:很多地方停留在“写出来了”,没有变成“可操作的办公文件”。 它的优势更多在价格:290 元人民币/年,确实便宜。
Excel 只有 6 个公式,没有图表;Word 没有真实标题层级,也没有表格;PPT 没有明显图表对象。这样的交付,如果只是让人快速读一遍可以,但如果要继续核验、改图、汇报、复用,就会比较吃力。
更麻烦的是,它在报告里写“22 部有评分、8 部评分缺失”,而统一素材和其他较稳输出里显示的是 17 部有评分、13 部缺失。这种指标级不一致,是办公任务里的硬伤。
MiniMax 的一句话评价: 便宜、能写,但复杂 Office 三件套交付不省心;体验上比 GLM 略低一点。
这次横评真正测出的,不是“谁更聪明”
很多人测大模型,喜欢问一个很难的问题,然后看回答是不是惊艳。但办公任务不是这样。办公任务考的是:能不能把一堆脏数据,变成别人可以继续使用的文件。
能力维度 | 优秀表现 | 本次代表模型 |
数据保守性 | 缺失不补、下限不乱估、异常主动说明 | Claude / Codex |
Excel 工程化 | 公式多、统计页可复核、有图表 | Codex |
报告叙事 | 先讲数据质量,再讲结论和风险 | Claude |
演示包装 | PPT 页数达标、图表充足、要点清晰 | GLM / Claude |
端到端一致性 | Excel、Word、PPT 指标不互相打架 | Codex / Claude |
※ 这也是我建议评测办公 Agent 时重点看的 5 个维度。
如果你要把 AI 放进真实工作流,千万不要只看“它会不会写”。要看它会不会留下可检查、可修改、可追责的文件。
按真实交付场景来选
模型 | 推荐场景 | 注意事项 |
Claude | 深度报告、管理层汇报、需要风险提示的分析 | Excel 图表原生化不足 |
Codex | 数据底稿、公式表、可核验分析链路 | 文章化表达还需要润色 |
GLM | 快速 PPT 汇报、视觉化初稿 | Word 样式和数据严谨性需复查 |
DeepSeek V4 Flash Free | 需要快速搭出完整框架的初稿 | 公式匹配和统计口径要重点审 |
MiniMax | 生成长文说明或轻量初稿 | 不建议直接承担复杂 Office 三件套交付 |
如果你问我实际会怎么用:我会让 Codex 先做数据清洗和 Excel 底稿,再让 Claude 写报告和风险解释,最后根据受众让 GLM 辅助做 PPT 视觉初稿。单模型全包当然方便,但多模型协作更接近真实生产。
以下文件为测试最终数据
一句话总结
这次测试里,Claude 最像可靠分析师,Codex 最像数据工程师,GLM 最像会做演示的同事,DeepSeek 像完成度不错但需要审稿的实习生,MiniMax 则更适合写文字,不适合直接交付复杂办公三件套。
分享到: