论文《Thinking with Visual Primitives》提出了一种全新的多模态大模型(MLLM)推理范式。其核心在于将空间坐标(框和点) 视为“思维的最小单元”,让模型在思考过程中通过“指代”来辅助“推理”。


核心洞察 (Core Insights)

1. 从“感知鸿沟”转向“引用鸿沟” (The Reference Gap)

以往的研究主要关注感知鸿沟(Perception Gap),即通过提高分辨率(如各种“切图”方案)让模型“看清”细节。但这篇论文指出,即便看清了,模型在复杂任务中仍会失败。

  • 痛点:自然语言在描述复杂空间布局时具有模糊性。例如在密集计数或拓扑导航时,纯文字的思维链(CoT)容易迷失方向,导致逻辑崩溃和幻觉。
  • 洞察:模型需要一种精准的、非歧义的指代机制。就像人类在数数时会用手指点着物体一样,模型也需要在思考时通过坐标(Visual Primitives)来锚定视觉实体。

2. 视觉原语作为“思维最小单元” (Visual Primitives as Units of Thought)

论文将 边界框(Bounding Box)点(Point) 提升到了与语言 Token 同等的地位。

  • Insight:这些视觉原语不应只是最终输出的“结果”,而应是嵌入在模型思考过程中的“中间过程”。通过在 CoT 中交织这些坐标,模型实现了“边指边想”(Point-to-Reason),有效地减轻了认知负荷。

3. 极端高效的视觉 Token 压缩

目前的 MLLM 往往堆砌数千个视觉 Token,导致计算开销巨大。

  • Insight:论文认为未来的系统级推理不需要看那么多元像素,而需要更精准的指代。通过多层压缩(3×3 空间压缩 + 4× 压缩稀疏注意力 CSA),模型能将 800×800 的图像在 KV Cache 中压缩到仅剩约 90个项,却能保持极强的推理能力。

方法贡献 (Methodological Contributions)

1. 创新的推理框架:Thinking with Visual Primitives

  • 原语定义:引入了框(用于目标定位和几何推理)和点(用于抽象轨迹追踪和拓扑导航)两种原语。
  • 交织推理:模型在生成的推理链中直接插入坐标信息。例如在计数时,它会先输出 <|box|>... 锁定物体,再进行累加。这种方式让推理路径在物理坐标上实现了强对齐。

2. 大规模高质量数据清洗流水线

为了让模型掌握这种能力,论文构建了海量的数据集:

  • Web数据提纯:从互联网采集了 4000 万高质量样本,并设计了两步过滤:
    1. 语义审核:利用 MLLM 过滤无意义的机器码、私有实体和模糊缩写。
    2. 几何审核:过滤漏标、严重截断或覆盖全图的无效框(Mega Boxes)。
  • 冷启动数据设计:针对计数、空间推理、迷宫导航、路径追踪四个维度,利用程序化生成(如 CLEVR、DFS/BFS 迷宫算法)构建了高精度的“思维链”样本。

3. 专家化后训练方案 (Post-Training Pipeline)

论文采用了一种“先分化,再合并”的策略:

  • Specialized SFT & RL:分别训练“擅长框指代(TwG)”和“擅长点指代(TwP)”的专家模型。
  • 强化学习 (RL):使用 GRPO 算法,并为不同任务设计了精密的奖励模型(Reward Models)
    • 计数奖励:基于相对误差的平滑指数衰减函数。
    • 迷宫/路径奖励:引入“因果截断(Causal Truncation)”机制——如果模型在第一步就撞墙,后面跑对也不给分;同时对轨迹的准确性、连续性和端点一致性进行多维打分。
  • Unified RFT & OPD (在策略蒸馏):通过统一拒绝微调和在策略蒸馏,将两类专家的能力完美整合进一个统一模型中。

4. 拓扑推理能力的突破

论文显著提升了 MLLM 在极难任务上的表现:

  • 迷宫导航 (Maze Navigation):模型不仅能判断是否连通,还能输出完整的 DFS 搜索过程。
  • 路径追踪 (Path Tracing):在乱如乱麻的曲线中,模型能识别交叉点并根据几何连续性追踪目标曲线。

实验结果与总结

  • 性能优异:在参数量(284B,激活 13B)较小且视觉 Token 极少的情况下,该模型在空间推理、密集计数等任务上匹配甚至超越了 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash。
  • 结论:该研究证明了通往“系统 2”多模态智能的路径不一定非要堆砌像素分辨率,而应通过构建语言与视觉之间精准、无歧义的指代桥梁来实现更深层次的逻辑思考。

一句话总结: 这篇论文教会了多模态模型如何像人类一样“指着图思考”,通过引入坐标原语解决了视觉推理中的指代模糊问题,并实现了极高的 token 效率。

原文:https://www.k-a.in/Thinking_with_Visual_Primitives.pdf