这篇论文标题为《Vision Transformers Need More Than Registers》,由香港大学和中山大学的研究团队发表。它深入探讨了视觉 Transformer(ViT)中普遍存在的“伪影”(artifacts)现象,并提出了名为 LaSt-ViT (LazyStrike ViT) 的改进方案。


1. 什么是 Register(寄存器)?

在理解这篇论文之前,首先需要了解背景中的 Register。这是由 Darcet 等人在 2023 年提出的概念(发表于《Vision Transformers Need Registers》)。

  • 定义:Register 是指在 ViT 的输入序列中额外添加的几个可学习的占位符 token(类似于 CLS token,但不用于分类)。
  • 作用:研究发现,在大规模预训练的 ViT 中,某些背景区域会出现“高范数(high-norm)”特征,这些特征在注意力图中表现为极强的响应点(即伪影)。Register 的目的是作为一种“垃圾桶”,去吸收这些无关紧要但能量极高的背景信息,从而保护 patch token 的特征不被污染。
  • 局限性(本论文的观点):本论文认为,简单的 Register 只能在结果层面缓解高范数现象,但没有触及伪影产生的根本原因。即便加了 Register,ViT 依然存在严重的“背景偏差”问题。

2. 核心洞察 (Insight)

论文通过引入两个新指标:Patch Score(patch 与 CLS 的相似度)和 Point-in-Box (PiB)(最高分点是否落在目标框内),发现了 ViT 的“懒惰聚合(Lazy Aggregation)”行为。

懒惰聚合的根源:

  1. 粗粒度语义监督 (Coarse-grained Supervision):模型通常只接受图像级标签(如“猫”),而没有像素级的指导。
  2. 全局依赖 (Global Dependencies):ViT 的全局注意力机制允许信息在所有 token 间自由传播。
  3. 结果:为了最快降低分类损失,模型会寻找“捷径”。由于背景区域通常占据图像的大部分面积,模型倾向于将前景语义扩散到大量的背景 patch 中,利用背景 patch 作为表示全局语义的快捷方式。这种行为导致 CLS token 实际上在“看”背景。

“在没有 patch 级标注的情况下,ViT 可能会通过在训练初期将少量的目标语义扩散到背景中,从而采取一种‘懒惰聚合’策略。” Analysis


3. 方法:LaSt-ViT (LazyStrike)

为了抑制这种懒惰行为,作者提出了 LazyStrike 机制,其核心思想是:让 CLS token 只聚合那些最有代表性、最稳定的前景特征。

核心步骤:

  1. 稳定性得分 (Stability Score):在特征图的通道维度进行 1D 傅里叶变换(FFT)。作者观察到,前景信号在通道维度上通常更具一致性,而背景则由于语义多样性表现出更高频的波动。
  2. 频域过滤:通过低通滤波器提取稳定的特征分量。
    S_{i,j} = \frac{\hat{x}_{patch}[i, j]}{|\hat{x}_{patch}[i, j] - x_{patch}[i, j]| + \epsilon}
    其中 \hat{x}_{patch} 是低通滤波后的特征。 Method
  3. 通道级 Top-K 池化:在每个通道上,只选择稳定性得分最高的前 K 个 patch 来更新 CLS token。

通过这种方式,LaSt-ViT 强制模型将注意力集中在语义最稳定的区域(通常是物体本身),从而避免了对背景的过度依赖。


4. 主要贡献

  • 系统性分析:首次从空间(Patch Score)和时间(训练动态)两个维度量化了 ViT 的伪影问题,并证明伪影在训练初期就已产生。
  • 统一的解释:提出了“懒惰聚合”假说,统一解释了全监督、自监督和文本监督(CLIP)下 ViT 伪影的成因。
  • 高效的解决方案:LaSt-ViT 无需改变模型架构,不增加推理负担,通过简单的频率感知选择性聚合即可消除伪影。
  • 广泛的验证:在 12 个基准测试中表现卓越,包括物体发现、语义分割和开集检测。

5. 实验结果

5.1 消除伪影与提高定位精度

在 PiB 指标上,LaSt-ViT 显著提升了 ViT 的表现,使其接近甚至超过卷积网络(ConvNet)的定位能力。

  • 全监督 ViT-B:PiB 从 42.7 提升至 55.1
  • CLIP (OpenCLIP):PiB 从 39.8 提升至 50.1Results

5.2 零样本语义分割 (Zero-shot Segmentation)

在 CLIP 模型中应用 LazyStrike 后,语义分割精度大幅提升。

  • VOC 2012 数据集上,CLIP (ViT-B/16) 的 mIoU 从 49.0% 暴涨至 75.0%Segmentation

5.3 涌现的语义性质

作者发现,即使是全监督训练的 ViT,在使用 LaSt-ViT 后也能像自监督的 DINO 一样“自动”学会分割物体,PCA 特征可视化显示前景和背景被清晰分离。

“LazyStrike 细化了之前纠缠在一起的 PCA 特征,有效地区分并突出了显著的前景。” PCA Results


总结

这篇论文告诉我们:ViT 产生伪影不是因为“缺几个寄存器”,而是因为全局注意力在粗粒度监督下太“懒”了。通过 LazyStrike 的频率感知筛选,我们可以让 ViT 真正“看清”物体,从而在不牺牲分类精度的情况下,极大增强其在各类密集预测任务(分割、检测)中的下游适配能力。

原文:https://openaccess.thecvf.com/content/CVPR2026/papers/Shi_Vision_Transformers_Need_More_Than_Registers_CVPR_2026_paper.pdf