S4-Driver论文阅读

2026-03-24 22:17 · 44

2025年waymo方案调研的文章阅读的第一篇，简记一下阅读所得。

首先这是一篇端到端的、输入图像、输出轨迹的工作。主要亮点在于Meta-decision、无显式深度估计、sparse voxel表征等。对我们设计自监督轨迹生成模型有挺大启发的。

亮点

Meta-decision方法，通过两次输出，分层精化输出。

\mathcal{D}=P_{s1}(\mathcal{C},\mathcal{H}_{T_h},b),\quad\mathcal{O}_{T_f}=P_{s2}(\mathcal{C},\mathcal{H}_{T_h},b;\mathcal{D})

从训练角度看，从前后一致性角度上约束了网络，有点像GRPO之类的方法。通过设计heuristic rules，让网络自监督的进化。

借鉴SimpleBEV。跳过显式深度估计（lifting），直接计算3d->2d投影坐标，从2d特征图进行采样。

稀疏体素表征。认为empty区域和非empty区域的重要程度是不一样的，可以用同一个empty特征表征所有的empty voxel。通过使用门控来控制稀疏度。通过中间特征（3层mlp）来降低直接做通道压缩的计算量（2层mlp）。

局部特征聚合。本质上就是把重要度近大远小的先验引入注意力分数的计算。

多帧融合。只复用非empty，降低复杂度。对角化重要性矩阵，模型可以逐渐学习如何有效利用历史帧的信息，而不会在初期就破坏当前帧的语义。
引入简单有效的nucleus sampling。使用无加权的方式做聚合。
论文对“自监督”的定义，是只需提供多视图图像序列+文本高级指令+path log。其中文本高级指令是系统给的。