DeepSeek 连夜删掉的论文：给 AI 装一根手指

2026/05/025 分钟

分类：AI 科技

数手指数晕了的 AI

前两天有人让 DeepSeek 数手指。它思考了一通，自己吐槽「我真的是数晕了」，然后答错了。

以为是灰度测试的小问题。但这篇论文告诉我们，数手指数晕这件事，背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶颈。

看得清 vs 指得准

目前所有 AI 看图，本质上都是把图片转成文字来思考。

过去两年，OpenAI、Google、Anthropic 拼命做一件事：让 AI 看得更清楚。高分辨率裁切、动态分块、图片放大再塞进去。

DeepSeek 把这叫「感知鸿沟」——AI 看不清。但这篇论文指出了另一个瓶颈：「引用鸿沟」。

AI 看清了，但没法精确指向图里的某个东西。一张合照 25 个人密密麻麻站一起，用语言描述「左边第三排穿蓝色球衣旁边那个人」——描述本身就是模糊的。AI 数着数着就丢了上下文，忘了数到谁。

人类怎么解决？够原始的。伸出手指，指一个数一个。

给 284B 参数的模型装一根手指

DeepSeek 的方案就这么朴素：让 AI 在思考时直接在图上画框标坐标。

数人？每个人身上画一个框，数框就行

走迷宫？每走一步在图上标一个点，留下路径记录

两种格式：框（Bounding Box）和点（Point）。DeepSeek 管它们叫「视觉原语」——视觉推理中最小的思维单元。

关键区别：以前 AI 输出坐标是给最终答案，现在坐标嵌入了思考过程本身。不是答卷上的答案，是草稿纸上的标记。

7056 倍压缩，还能数清 25 个人

一张 756×756 的图，57 万像素，DeepSeek 一路压成 81 个信息单元。压缩比 7056 倍。

模型	每图 Token 数
Gemini-3-Flash	约 1100
Claude-Sonnet-4.6	约 870
GPT-5.4	约 740
DeepSeek	90

DeepSeek 用 90 个 Token 就搞定了。省下来的算力全拿去「指」。

别人在掷硬币，DeepSeek 在认真走

迷宫测试最能说明问题。迷宫只有两种答案：有路，或者没路。随机猜正好 50%。

模型	准确率
DeepSeek	66.9%
GPT-5.4	50.6%
Claude-Sonnet-4.6	48.9%
Gemini-3-Flash	49.4%

GPT、Claude、Gemini 全在 50% 附近晃。跟掷硬币没区别。DeepSeek 的 66.9% 不算完美，但它确实在一步步走，不是在蒙。

路径追踪更夸张：Claude 只有 30.6%，比瞎猜强一点。DeepSeek 是 56.7%。

4000 万条数据的筛选工程

DeepSeek 从 Huggingface 爬了 97,984 个数据源。

第一轮：砍掉标签无意义的、私人实体的、模糊缩写的。砍 56%

第二轮：砍掉漏标太多的、框画歪的、框太大的。再砍 27%

最终产出超过 4000 万条高质量样本

然后分头练：框的数据训练一个专家，点的数据训练另一个专家。分别做强化学习，最后合并。

DeepSeek：始终在「用更少做更多」

时间	模型	关键创新
2024.06	V2	MLA 压缩注意力机制
2024.12	V3	671B 参数 MoE，278 万 GPU 小时训练
2025.01	R1	纯强化学习激发涌现推理
2026.04	V4	100 万 Token 上下文 + Engram 记忆

每一次，DeepSeek 都在做同一件事：用更少的算力做更多的事。

为什么要删？

技术太超前：视觉原语的效果远超预期，DeepSeek 可能不想让竞争对手这么快跟进

节奏问题：视觉模式还在灰度测试，论文可能超前于产品发布计划

内部流程：研究员个人在 X 上发布，可能没走完完整的内部审批

后续分析：视觉原语将如何改变行业

OpenAI/Anthropic 会在 6 个月内跟进

视觉原语的技术路径清晰且可复制，不依赖特殊硬件。GPT/Claude 在迷宫测试上的「掷硬币」表现说明纯语言推理在空间任务上已触及天花板。参照 DeepSeek-R1 发布后，OpenAI 在 3 个月内推出类似推理链产品的历史，视觉锚点机制被竞争对手跟进几乎是必然。

DeepSeek 可能在 V4.1 中正式集成

论文表明技术已进入强化学习优化阶段，4000 万条训练数据就绪，模型架构已验证。DeepSeek 历史上从论文到产品部署周期约 2-4 个月。但「删论文」行为暗示内部可能存在路线分歧，存在延迟风险。

这对普通用户意味着什么

当 AI 学会「指」，许多现在做不到的事将变得可能：看电路图自动定位故障点、医学影像精确标注病灶、自动驾驶理解复杂路口的空间关系。66.9% 只是起点。教模型伸手指这件事，才刚刚开始。

分辨率军备竞赛可以缓一缓了。多模态推理的下一步，不在更高的分辨率，不在更多的 token。而在让 AI 学会在图中定位、比较、追踪。

教模型伸出手指，比给它配一副更贵的眼镜管用。

这只鲸鱼开了眼之后，还长出了手指。

基于论文撤稿前全文分析 | 黑粉科技 · hyphentech.top

分享到：