论文阅读：DeepSeek-AI的《Thinking with Visual Primitives》

2026-07-01 11:15 · 27 · 研究

论文《Thinking with Visual Primitives》提出了一种全新的多模态大模型（MLLM）推理范式。其核心在于将空间坐标（框和点） 视为“思维的最小单元”，让模型在思考过程中通过“指代”来辅助“推理”。

核心洞察 (Core Insights)

1. 从“感知鸿沟”转向“引用鸿沟” (The Reference Gap)

以往的研究主要关注感知鸿沟（Perception Gap），即通过提高分辨率（如各种“切图”方案）让模型“看清”细节。但这篇论文指出，即便看清了，模型在复杂任务中仍会失败。

痛点：自然语言在描述复杂空间布局时具有模糊性。例如在密集计数或拓扑导航时，纯文字的思维链（CoT）容易迷失方向，导致逻辑崩溃和幻觉。
洞察：模型需要一种精准的、非歧义的指代机制。就像人类在数数时会用手指点着物体一样，模型也需要在思考时通过坐标（Visual Primitives）来锚定视觉实体。

2. 视觉原语作为“思维最小单元” (Visual Primitives as Units of Thought)

论文将 边界框（Bounding Box） 和 点（Point） 提升到了与语言 Token 同等的地位。

Insight：这些视觉原语不应只是最终输出的“结果”，而应是嵌入在模型思考过程中的“中间过程”。通过在 CoT 中交织这些坐标，模型实现了“边指边想”（Point-to-Reason），有效地减轻了认知负荷。

3. 极端高效的视觉 Token 压缩

目前的 MLLM 往往堆砌数千个视觉 Token，导致计算开销巨大。

Insight：论文认为未来的系统级推理不需要看那么多元像素，而需要更精准的指代。通过多层压缩（3×3 空间压缩 + 4× 压缩稀疏注意力 CSA），模型能将 800×800 的图像在 KV Cache 中压缩到仅剩约 90个项，却能保持极强的推理能力。

方法贡献 (Methodological Contributions)

1. 创新的推理框架：Thinking with Visual Primitives

原语定义：引入了框（用于目标定位和几何推理）和点（用于抽象轨迹追踪和拓扑导航）两种原语。
交织推理：模型在生成的推理链中直接插入坐标信息。例如在计数时，它会先输出 <|box|>... 锁定物体，再进行累加。这种方式让推理路径在物理坐标上实现了强对齐。

2. 大规模高质量数据清洗流水线

为了让模型掌握这种能力，论文构建了海量的数据集：

Web数据提纯：从互联网采集了 4000 万高质量样本，并设计了两步过滤：
1. 语义审核：利用 MLLM 过滤无意义的机器码、私有实体和模糊缩写。
2. 几何审核：过滤漏标、严重截断或覆盖全图的无效框（Mega Boxes）。
冷启动数据设计：针对计数、空间推理、迷宫导航、路径追踪四个维度，利用程序化生成（如 CLEVR、DFS/BFS 迷宫算法）构建了高精度的“思维链”样本。

3. 专家化后训练方案 (Post-Training Pipeline)

论文采用了一种“先分化，再合并”的策略：

Specialized SFT & RL：分别训练“擅长框指代（TwG）”和“擅长点指代（TwP）”的专家模型。
强化学习 (RL)：使用 GRPO 算法，并为不同任务设计了精密的奖励模型（Reward Models）：
- 计数奖励：基于相对误差的平滑指数衰减函数。
- 迷宫/路径奖励：引入“因果截断（Causal Truncation）”机制——如果模型在第一步就撞墙，后面跑对也不给分；同时对轨迹的准确性、连续性和端点一致性进行多维打分。
Unified RFT & OPD (在策略蒸馏)：通过统一拒绝微调和在策略蒸馏，将两类专家的能力完美整合进一个统一模型中。

4. 拓扑推理能力的突破

论文显著提升了 MLLM 在极难任务上的表现：

迷宫导航 (Maze Navigation)：模型不仅能判断是否连通，还能输出完整的 DFS 搜索过程。
路径追踪 (Path Tracing)：在乱如乱麻的曲线中，模型能识别交叉点并根据几何连续性追踪目标曲线。

实验结果与总结

性能优异：在参数量（284B，激活 13B）较小且视觉 Token 极少的情况下，该模型在空间推理、密集计数等任务上匹配甚至超越了 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash。
结论：该研究证明了通往“系统 2”多模态智能的路径不一定非要堆砌像素分辨率，而应通过构建语言与视觉之间精准、无歧义的指代桥梁来实现更深层次的逻辑思考。

一句话总结： 这篇论文教会了多模态模型如何像人类一样“指着图思考”，通过引入坐标原语解决了视觉推理中的指代模糊问题，并实现了极高的 token 效率。

原文：https://www.k-a.in/Thinking_with_Visual_Primitives.pdf