Elo 1656 碾压 Claude Sonnet?谷歌新 Flash 我用了3天说点实话

Elo 1656 碾压 Claude Sonnet?谷歌新 Flash 我用了3天说点实话

2026/05/253 分钟
分类:AI技术
标签:#Gemini#Google#实测#AI技术#性能优化
📰
数据来源:Google 官方、LMArena 公开排行榜、buildfastwithai.com,2026年5月19日
新一轮模型评测开始了,这次谷歌认真的
新一轮模型评测开始了,这次谷歌认真的

先说我的总体感受

用了三天,结论是:Gemini 3.5 Flash 是谷歌近两年发布的最有竞争力的模型,不是在吹,是真的。
但如果你看到「Elo 1656 超过 Claude Sonnet」就直接跳到付费页面——等等,先花5分钟看完这篇,有个坑会让你在不知情的情况下悄悄用烂版推理。
Google DeepMind 官网 · Gemini 3.5 Flash 正式上线 | 2026.5.19
Google DeepMind 官网 · Gemini 3.5 Flash 正式上线 | 2026.5.19

先把关键数字摆出来

  • LMArena Elo:1,656(Claude Sonnet 4.6 约 1,620)
  • Terminal-Bench 2.1:76.2%(Gemini 3.1 Pro:70.3%,Claude Sonnet:68.0%)
  • 上下文窗口:1M tokens(Claude Sonnet:200K tokens)
  • 价格:$1.50 / $9.00 每百万 token(输入/输出)
  • 视频理解:✅ 原生支持(竞品均不支持)

等等,Flash 涨价了3倍,你知道吗?

旧版 Gemini 3 Flash:$0.50 / $3.00 每百万 token(输入/输出)
新版 Gemini 3.5 Flash:$1.50 / $9.00 每百万 token(输入/输出)
如果你之前用 Gemini 3 Flash 主要是因为它便宜——那这次升级,账单直接涨了3倍。
⚠️
从旧 Flash 迁移 = 成本 ×3;从 Claude Sonnet 迁移 = 成本 ÷2。务必先算清楚再决定。

最大的坑:它会偷偷变笨

旧版 Gemini 3 Flash Preview 的 thinking_level 默认是 high,新版 3.5 Flash 的默认悄悄改成了 medium。
直接换 model ID 迁移——你在用更贵的价格,跑更低的推理深度,然后发现输出质量变差了但不知道为什么。
以为自己在用最强版本,其实……
以为自己在用最强版本,其实……
# ❌ 迁移后偷偷变笨的写法 model = 'gemini-3.5-flash' # thinking_level 默认 medium,比旧版 high 低 # ✅ 正确写法,保持原有推理深度 model = 'gemini-3.5-flash' thinking_level = 'high' # 必须显式指定!
⚠️
迁移 checklist:把 gemini-3-flash-preview → gemini-3.5-flash 之后,必须显式加上 thinking_level='high',否则推理会静默降级。

什么情况下真的值得用 Gemini 3.5 Flash

  • 超长文档(>200K token)🔥 强烈推荐 — 1M 上下文,Sonnet 物理上吃不下
  • 视频内容理解 🔥 强烈推荐 — 原生多模态,竞品没有
  • 高频 API 调用控成本 ✅ 推荐 — 比 Sonnet 便宜约 50%,性能接近
  • 深度代码重构 ⚠️ 慎用 — Sonnet 的代码质量和指令遵循仍更稳
理智的做法:根据任务选模型,不是押注一个。超长文档和视频用 Flash,代码重构和精密操作用 Sonnet。

数据来源:Google 官方、LMArena、buildfastwithai.com,2026年5月19日。
分享到:

相关文章

返回首页