五个大模型做同一份电影数据报告,谁真的会干活?

五个大模型做同一份电影数据报告,谁真的会干活?

2026/05/3111 分钟
分类:AI大模型
标签:#AI#AI大模型#AI技术#实测#工具#工作流
📡
本文基于本地大模型横评文件生成,首发于黑粉科技。 本文配套有视频版,在各大平台推送
notion image

五个大模型做同一份电影报告 谁真的会干活?

同一提示词,同一份素材,交付 Excel + Word + PPT 三件套。 这次不看口号,看文件。
黑粉科技 · 2026-05-31 · 本地横评
这次测试很像把五位同事拉进会议室,发同一摞材料,然后说:今天下班前给我交一份 Excel 分析表、一份 Word 报告、一份 PPT 汇报。
参赛选手是 Codex、Claude、DeepSeek V4 Flash Free、GLM、MiniMax。前期电影数据各模型自己搜集,但为了让“文件生成”这件事公平,最终统一使用 Codex 搜集整理的电影数据作为素材参考。这里要先说明:DeepSeek 这一轮没有进行数据搜索部分的测试,所以它不适合当作完整端到端样本来对比。
📌
所以这篇文章的判断口径是“体验感 + 交付可用性”:既看前面的数据搜集,也看给定统一素材后,模型能不能把 Excel、Word、PPT 做成可核验、可阅读、可汇报的成品。本文不再给具体分数,避免把主观体验伪装成精确量化。
体验排名:不做具体分数,只看真实任务里的端到端可用程度。
体验排名:不做具体分数,只看真实任务里的端到端可用程度。

先说结论:Codex 小胜 Claude

如果只给一句话结论:Codex 第一,Claude 第二,GLM 第三,MiniMax 第四,DeepSeek 第五。 本次 Codex 使用 GPT-5.5 中推理,Claude Code 使用 Opus 4.8 中推理。Codex 赢在端到端,尤其数据搜集和 Excel 底稿;Claude 赢在报告分析和风险说明,但整体略输一点点。后面三位差距不大,GLM 只比 MiniMax 稍好,DeepSeek 因为没有进行数据搜索部分测试,排在最后。
体验排名
模型
最强项
明显短板
1
Codex
数据搜集、Excel 公式、图表、三件套一致性
Word 深度略短
2
Claude
报告深度、异常说明、整体叙事
Excel 图表原生化不足
3
GLM
整体结构略好于 MiniMax
PPT/Word 体验都不够理想
4
MiniMax
价格便宜,文字长度够
Excel、PPT、结构化排版偏弱
5
DeepSeek
文件生成有框架
未测试数据搜索,PPT 和 Word 体验偏弱
※ 这是体验排名,不是精确量化分数;DeepSeek 没有参加数据搜索部分测试。
模型
测试配置
价格信息
放进体验里的含义
Codex
GPT-5.5 中推理
20 美元/月
端到端能力最强,价格和 Claude 接近
Claude Code
Opus 4.8 中推理
20 美元/月
报告质量最强,但整体略低于 Codex
GLM 国际版 Pro
Pro 版套餐
优惠 81 美元/3个月;官网数据使用量约为 Claude Code 的 15 倍
量大,但本次体验排名第三
MiniMax
MiniMax 2.7
290 元人民币/年
明显便宜,适合轻量使用,但交付质量不在第一梯队
DeepSeek
未进行数据搜索测试
本次不纳入价格比较
不能做完整端到端性价比判断
※ 价格按本次用户提供信息记录,实际订阅价格可能随地区、活动和套餐变化。

测试题到底难在哪里?

这道题表面是“电影数据分析”,实际是在考模型的三种能力:数据清洗、办公文件生成、跨文件一致性
  • Excel 要能核验:清洗后数据、统计分析、Top5、地区汇总都要用公式,不能把结果硬贴进去。
  • Word 要像报告:1500-2500 字,必须讲数据范围、缺失、异常、票房、评分、类型地区、票房 vs 评分洞察。
  • PPT 要能汇报:6-8 页,每页一个核心信息,最好有柱状图、饼图等可视化。
  • 三件套必须一致:比如总票房、Top1 影片,在 Excel、Word、PPT 里不能互相打架。
⚠️
这类任务最怕“看起来很完整”。因为模型很容易把 Word 写得顺,把 PPT 做得漂亮,但 Excel 公式错了、统计口径漂了,最后整套报告就变成精装修错题本。

客观指标:先把文件摊开看

我先不谈感受,直接抽取每个模型的成品结构:Excel 有多少公式、有没有图表,Word 有多少正文、有没有标题层级和表格,PPT 是否满足页数要求、是否真的有图表或图片。但注意,对象数量不等于体验质量,尤其 PPT 这一项,GLM、MiniMax、DeepSeek 的实际阅读体验都偏弱。
模型
Excel公式
Excel图表
Word字数
Word标题
Word表格
PPT页数
PPT可视化
Codex
172
2
1713
6
1
7
5个PPT图表
Claude
139
0
2338
9
2
8
4张图表图片
DeepSeek
51
2
2210
6
3
8
4个PPT图表
GLM
78
0
2230
0
4
8
10个PPT图表
MiniMax
6
0
2347
0
0
7
无明显图表
※ 这些数字来自本地 xlsx/docx/pptx 文件结构抽取;Word 标题指真实 Heading 样式,不是正文里写了“一、二、三”。
Excel 公式数量并不等于绝对质量,但可以反映模型有没有把表格做成“可复核工具”。
Excel 公式数量并不等于绝对质量,但可以反映模型有没有把表格做成“可复核工具”。
这里有个很关键的分水岭:Codex 和 Claude 都大量使用公式,说明它们理解了“关键统计单元格需用 Excel 公式实现”。MiniMax 只有 6 个公式,基本只能算“有个统计页”,离可复核分析表还差不少。
另一个分水岭是样式和结构。Claude、Codex、DeepSeek 的 Word 都有真实标题层级;GLM 和 MiniMax 虽然正文里写了“一、二、三”,但没有用 Word Heading 样式。人眼能看懂,机器目录、导航窗格、后续自动排版就不友好了。

Codex:像一个谨慎的数据工程师

Codex 的最大亮点是 Excel。它的 `movie_analysis.xlsx` 有 172 个公式,两张表,统计页覆盖类型平均票房/评分、票房 Top5、评分 Top5、地区影片数量与总票房,还带了 2 个 Excel 原生图表
更重要的是,它对数据口径比较克制。比如票房字段里有精确值、有“>=”下限值、有缺失值,Codex 明确使用“可确认下限口径”:精确票房按原值计入,`>=` 只按下限计入,缺失不补零、不估算。
这就是数据工作里很重要的品质:我不知道的,就说不知道;我只能确认下限,就不要假装知道真实值。
它的 Word 报告是 1713 字,在要求的 1500-2500 字范围内,结构清楚,但相比 Claude 少了一点“解释力”。读起来像一份标准分析报告,干净、保守、可交差;但如果要发公众号,情绪和洞察还要再加工。
💡
Codex 的一句话评价: 本次使用 GPT-5.5 中推理。Excel 最强、口径最稳、三件套一致性好;短板是报告不够会讲故事。

Claude:像一个会写报告的高级分析师

Claude 的强项非常明显:它知道读者需要先理解数据质量,再理解结论。
它的 Word 报告有 2338 字、9 个标题、2 个表格,是五个模型里最像“正式咨询报告”的。它不只是说有缺失,还具体指出:票房仅 8/30 部有值,其中精确值只有 3 部;评分缺失 13 部;《钟馗》《森林之声》存在“有评分人数却无评分”的逻辑矛盾;《纵横四海》《记忆碎片》疑似经典重映,评分人数可能是历史累计。
这部分很加分。因为真正的数据分析不是“把数字排个榜”,而是先告诉你:这些数字有哪些能信,哪些只能参考,哪些可能会误导。
Word 报告信息量对比:Claude、MiniMax、GLM、DeepSeek 都比较长,但“长”和“有效”不是一回事。
Word 报告信息量对比:Claude、MiniMax、GLM、DeepSeek 都比较长,但“长”和“有效”不是一回事。
Claude 的 Excel 也不错,有 139 个公式,但没有 Excel 原生图表;PPT 则用 4 张图表图片完成可视化。这种策略很务实:它不一定把所有东西都做成 Office 原生对象,但最终给人的阅读体验是完整的。
💡
Claude 的一句话评价: 本次 Claude Code 使用 Opus 4.8 中推理。它最会解释数据,最会提醒风险,最像可以直接交给老板看的版本。

DeepSeek:最大问题是没测数据搜索

DeepSeek 的第一眼观感不差:Excel 有 3 个 sheet,其中还专门做了“图表”页;Word 有 2210 字、3 个表格;PPT 有 8 页,也有图表对象。但这次必须单独说明:DeepSeek 没有进行前置数据搜索部分的测试,因此它不是完整端到端对比样本。
最典型的问题在 Excel。它在类型统计里用了类似 `AVERAGEIF(清洗后数据!C:C,A5,...)` 的公式,但原始类型字段经常是“剧情 / 悬疑 / 犯罪”这种多标签字符串。没有通配符时,很多包含关系匹配不到,统计结果就容易失真。
⚠️
这类错误很隐蔽:表格里确实有公式,公式看起来也像那么回事,但它回答的不是你真正问的问题。
它的报告里还有一个口径问题:一边说“下限值未纳入均值与排名”,一边又要完成 Top5 和地区统计。这个选择不一定错,但需要非常清楚地解释“为什么排除下限值”。否则用户会看到 Codex/Claude 统计 8 部有票房,DeepSeek 只拿 3 部精确票房说事,横向结论自然会偏窄。
💡
DeepSeek 的一句话评价: 文件生成有框架,但未参加数据搜索测试;再加上公式口径、Word/PPT 体验都不够稳,所以排在最后。

GLM:比 MiniMax 稍好,但也不算好用

GLM 做了 8 页 PPT,文件里能抽取到 10 个 PPT 原生图表对象。但这不代表它的 PPT 体验就好。实际看下来,它和 MiniMax、DeepSeek 一样,离“可以舒服拿去讲”的汇报稿还有距离,只是整体结构比 MiniMax 稍微顺一点。
五个模型的 PPT 都满足 6-8 页要求;差别主要在图表质量和信息密度。
五个模型的 PPT 都满足 6-8 页要求;差别主要在图表质量和信息密度。
但 GLM 的 Word 有个典型问题:正文看起来分了章节,文件结构里却没有真实 Heading 样式。也就是说,它像是在纸面上写了标题,但没有告诉 Word“这真的是标题”。
它的 Excel 有 78 个公式,比 MiniMax 强一些,但没有 Excel 图表。整体感觉是:GLM 能完成基础框架,体验上略高于 MiniMax;但如果你要严谨数据底稿和可直接展示的 PPT,它还需要人工重做一大截。
💡
GLM 的一句话评价: 整体比 MiniMax 稍好,但 PPT、Word、数据底稿都不够省心。

MiniMax:字数够,但办公自动化味道最淡

MiniMax 的 Word 有 2347 字,单看长度是够的;PPT 也有 7 页,满足题目 6-8 页要求。但它的问题是:很多地方停留在“写出来了”,没有变成“可操作的办公文件”。 它的优势更多在价格:290 元人民币/年,确实便宜。
Excel 只有 6 个公式,没有图表;Word 没有真实标题层级,也没有表格;PPT 没有明显图表对象。这样的交付,如果只是让人快速读一遍可以,但如果要继续核验、改图、汇报、复用,就会比较吃力。
更麻烦的是,它在报告里写“22 部有评分、8 部评分缺失”,而统一素材和其他较稳输出里显示的是 17 部有评分、13 部缺失。这种指标级不一致,是办公任务里的硬伤。
💡
MiniMax 的一句话评价: 便宜、能写,但复杂 Office 三件套交付不省心;体验上比 GLM 略低一点。

这次横评真正测出的,不是“谁更聪明”

很多人测大模型,喜欢问一个很难的问题,然后看回答是不是惊艳。但办公任务不是这样。办公任务考的是:能不能把一堆脏数据,变成别人可以继续使用的文件。
能力维度
优秀表现
本次代表模型
数据保守性
缺失不补、下限不乱估、异常主动说明
Claude / Codex
Excel 工程化
公式多、统计页可复核、有图表
Codex
报告叙事
先讲数据质量,再讲结论和风险
Claude
演示包装
PPT 页数达标、图表充足、要点清晰
GLM / Claude
端到端一致性
Excel、Word、PPT 指标不互相打架
Codex / Claude
※ 这也是我建议评测办公 Agent 时重点看的 5 个维度。
如果你要把 AI 放进真实工作流,千万不要只看“它会不会写”。要看它会不会留下可检查、可修改、可追责的文件。

按真实交付场景来选

模型
推荐场景
注意事项
Claude
深度报告、管理层汇报、需要风险提示的分析
Excel 图表原生化不足
Codex
数据底稿、公式表、可核验分析链路
文章化表达还需要润色
GLM
快速 PPT 汇报、视觉化初稿
Word 样式和数据严谨性需复查
DeepSeek V4 Flash Free
需要快速搭出完整框架的初稿
公式匹配和统计口径要重点审
MiniMax
生成长文说明或轻量初稿
不建议直接承担复杂 Office 三件套交付
如果你问我实际会怎么用:我会让 Codex 先做数据清洗和 Excel 底稿,再让 Claude 写报告和风险解释,最后根据受众让 GLM 辅助做 PPT 视觉初稿。单模型全包当然方便,但多模型协作更接近真实生产。
 
以下文件为测试最终数据
📌
一句话总结 这次测试里,Claude 最像可靠分析师,Codex 最像数据工程师,GLM 最像会做演示的同事,DeepSeek 像完成度不错但需要审稿的实习生,MiniMax 则更适合写文字,不适合直接交付复杂办公三件套。
 
分享到:

相关文章

返回首页