论文阅读：Vision Transformers Need More Than Registers

这篇论文标题为《Vision Transformers Need More Than Registers》，由香港大学和中山大学的研究团队发表。它深入探讨了视觉 Transformer（ViT）中普遍存在的“伪影”（artifacts）现象，并提出了名为 LaSt-ViT (LazyStrike ViT) 的改进方案。

1. 什么是 Register（寄存器）？

在理解这篇论文之前，首先需要了解背景中的 Register。这是由 Darcet 等人在 2023 年提出的概念（发表于《Vision Transformers Need Registers》）。

定义：Register 是指在 ViT 的输入序列中额外添加的几个可学习的占位符 token（类似于 CLS token，但不用于分类）。
作用：研究发现，在大规模预训练的 ViT 中，某些背景区域会出现“高范数（high-norm）”特征，这些特征在注意力图中表现为极强的响应点（即伪影）。Register 的目的是作为一种“垃圾桶”，去吸收这些无关紧要但能量极高的背景信息，从而保护 patch token 的特征不被污染。
局限性（本论文的观点）：本论文认为，简单的 Register 只能在结果层面缓解高范数现象，但没有触及伪影产生的根本原因。即便加了 Register，ViT 依然存在严重的“背景偏差”问题。

2. 核心洞察 (Insight)

论文通过引入两个新指标：Patch Score（patch 与 CLS 的相似度）和 Point-in-Box (PiB)（最高分点是否落在目标框内），发现了 ViT 的“懒惰聚合（Lazy Aggregation）”行为。

懒惰聚合的根源：

粗粒度语义监督 (Coarse-grained Supervision)：模型通常只接受图像级标签（如“猫”），而没有像素级的指导。
全局依赖 (Global Dependencies)：ViT 的全局注意力机制允许信息在所有 token 间自由传播。
结果：为了最快降低分类损失，模型会寻找“捷径”。由于背景区域通常占据图像的大部分面积，模型倾向于将前景语义扩散到大量的背景 patch 中，利用背景 patch 作为表示全局语义的快捷方式。这种行为导致 CLS token 实际上在“看”背景。

“在没有 patch 级标注的情况下，ViT 可能会通过在训练初期将少量的目标语义扩散到背景中，从而采取一种‘懒惰聚合’策略。” Analysis

3. 方法：LaSt-ViT (LazyStrike)

为了抑制这种懒惰行为，作者提出了 LazyStrike 机制，其核心思想是：让 CLS token 只聚合那些最有代表性、最稳定的前景特征。

核心步骤：

稳定性得分 (Stability Score)：在特征图的通道维度进行 1D 傅里叶变换（FFT）。作者观察到，前景信号在通道维度上通常更具一致性，而背景则由于语义多样性表现出更高频的波动。
频域过滤：通过低通滤波器提取稳定的特征分量。
$S_{i,j} = \frac{\hat{x}_{patch}[i, j]}{|\hat{x}_{patch}[i, j] - x_{patch}[i, j]| + \epsilon}$
其中 $\hat{x}_{patch}$ 是低通滤波后的特征。 Method
通道级 Top-K 池化：在每个通道上，只选择稳定性得分最高的前 $K$ 个 patch 来更新 CLS token。

通过这种方式，LaSt-ViT 强制模型将注意力集中在语义最稳定的区域（通常是物体本身），从而避免了对背景的过度依赖。

4. 主要贡献

系统性分析：首次从空间（Patch Score）和时间（训练动态）两个维度量化了 ViT 的伪影问题，并证明伪影在训练初期就已产生。
统一的解释：提出了“懒惰聚合”假说，统一解释了全监督、自监督和文本监督（CLIP）下 ViT 伪影的成因。
高效的解决方案：LaSt-ViT 无需改变模型架构，不增加推理负担，通过简单的频率感知选择性聚合即可消除伪影。
广泛的验证：在 12 个基准测试中表现卓越，包括物体发现、语义分割和开集检测。

5. 实验结果

5.1 消除伪影与提高定位精度

在 PiB 指标上，LaSt-ViT 显著提升了 ViT 的表现，使其接近甚至超过卷积网络（ConvNet）的定位能力。

全监督 ViT-B：PiB 从 42.7 提升至 55.1。
CLIP (OpenCLIP)：PiB 从 39.8 提升至 50.1。 Results

5.2 零样本语义分割 (Zero-shot Segmentation)

在 CLIP 模型中应用 LazyStrike 后，语义分割精度大幅提升。

在 VOC 2012 数据集上，CLIP (ViT-B/16) 的 mIoU 从 49.0% 暴涨至 75.0%。 Segmentation

5.3 涌现的语义性质

作者发现，即使是全监督训练的 ViT，在使用 LaSt-ViT 后也能像自监督的 DINO 一样“自动”学会分割物体，PCA 特征可视化显示前景和背景被清晰分离。

“LazyStrike 细化了之前纠缠在一起的 PCA 特征，有效地区分并突出了显著的前景。” PCA Results

总结

这篇论文告诉我们：ViT 产生伪影不是因为“缺几个寄存器”，而是因为全局注意力在粗粒度监督下太“懒”了。通过 LazyStrike 的频率感知筛选，我们可以让 ViT 真正“看清”物体，从而在不牺牲分类精度的情况下，极大增强其在各类密集预测任务（分割、检测）中的下游适配能力。

原文：https://openaccess.thecvf.com/content/CVPR2026/papers/Shi_Vision_Transformers_Need_More_Than_Registers_CVPR_2026_paper.pdf