Elo 1656 碾压 Claude Sonnet？谷歌新 Flash 我用了3天说点实话

2026/05/253 分钟

分类：学习思考

标签：#Gemini#Google#实测#AI技术#性能优化

📰

数据来源：Google 官方、LMArena 公开排行榜、buildfastwithai.com，2026年5月19日

先说我的总体感受

用了三天，结论是：Gemini 3.5 Flash 是谷歌近两年发布的最有竞争力的模型，不是在吹，是真的。

但如果你看到「Elo 1656 超过 Claude Sonnet」就直接跳到付费页面——等等，先花5分钟看完这篇，有个坑会让你在不知情的情况下悄悄用烂版推理。

Google DeepMind 官网 · Gemini 3.5 Flash 正式上线 | 2026.5.19

先把关键数字摆出来

LMArena Elo：1,656（Claude Sonnet 4.6 约 1,620）

Terminal-Bench 2.1：76.2%（Gemini 3.1 Pro：70.3%，Claude Sonnet：68.0%）

上下文窗口：1M tokens（Claude Sonnet：200K tokens）

价格：$1.50 / $9.00 每百万 token（输入/输出）

视频理解：✅ 原生支持（竞品均不支持）

等等，Flash 涨价了3倍，你知道吗？

旧版 Gemini 3 Flash：$0.50 / $3.00 每百万 token（输入/输出）

新版 Gemini 3.5 Flash：$1.50 / $9.00 每百万 token（输入/输出）

如果你之前用 Gemini 3 Flash 主要是因为它便宜——那这次升级，账单直接涨了3倍。

⚠️

从旧 Flash 迁移 = 成本 ×3；从 Claude Sonnet 迁移 = 成本 ÷2。务必先算清楚再决定。

最大的坑：它会偷偷变笨

旧版 Gemini 3 Flash Preview 的 thinking_level 默认是 high，新版 3.5 Flash 的默认悄悄改成了 medium。

直接换 model ID 迁移——你在用更贵的价格，跑更低的推理深度，然后发现输出质量变差了但不知道为什么。


# ❌ 迁移后偷偷变笨的写法
model = 'gemini-3.5-flash'
# thinking_level 默认 medium，比旧版 high 低

# ✅ 正确写法，保持原有推理深度
model = 'gemini-3.5-flash'
thinking_level = 'high'  # 必须显式指定！

⚠️

迁移 checklist：把 gemini-3-flash-preview → gemini-3.5-flash 之后，必须显式加上 thinking_level='high'，否则推理会静默降级。

什么情况下真的值得用 Gemini 3.5 Flash

超长文档（>200K token）🔥 强烈推荐 — 1M 上下文，Sonnet 物理上吃不下

视频内容理解 🔥 强烈推荐 — 原生多模态，竞品没有

高频 API 调用控成本 ✅ 推荐 — 比 Sonnet 便宜约 50%，性能接近

深度代码重构 ⚠️ 慎用 — Sonnet 的代码质量和指令遵循仍更稳

理智的做法：根据任务选模型，不是押注一个。超长文档和视频用 Flash，代码重构和精密操作用 Sonnet。

数据来源：Google 官方、LMArena、buildfastwithai.com，2026年5月19日。

分享到：

Elo 1656 碾压 Claude Sonnet？谷歌新 Flash 我用了3天说点实话

先说我的总体感受

先把关键数字摆出来

等等，Flash 涨价了3倍，你知道吗？

最大的坑：它会偷偷变笨

什么情况下真的值得用 Gemini 3.5 Flash

相关文章

Gemini 3.5 全系出击：Google 这次要让 ChatGPT 睡不着觉

Google I/O 2026 深度解读：Gemini 进入 Agentic 时代

五个大模型做同一份电影数据报告，谁真的会干活？