S4-Driver论文阅读

2025年waymo方案调研的文章阅读的第一篇,简记一下阅读所得。

首先这是一篇端到端的、输入图像、输出轨迹的工作。主要亮点在于Meta-decision、无显式深度估计、sparse voxel表征等。对我们设计自监督轨迹生成模型有挺大启发的。

亮点

  1. Meta-decision方法,通过两次输出,分层精化输出。
\mathcal{D}=P_{s1}(\mathcal{C},\mathcal{H}_{T_h},b),\quad\mathcal{O}_{T_f}=P_{s2}(\mathcal{C},\mathcal{H}_{T_h},b;\mathcal{D})

从训练角度看,从前后一致性角度上约束了网络,有点像GRPO之类的方法。通过设计heuristic rules,让网络自监督的进化。

  1. 借鉴SimpleBEV。跳过显式深度估计(lifting),直接计算3d->2d投影坐标,从2d特征图进行采样。

  1. 稀疏体素表征。认为empty区域和非empty区域的重要程度是不一样的,可以用同一个empty特征表征所有的empty voxel。通过使用门控来控制稀疏度。通过中间特征(3层mlp)来降低直接做通道压缩的计算量(2层mlp)。

  1. 局部特征聚合。本质上就是把重要度近大远小的先验引入注意力分数的计算。

  1. 多帧融合。只复用非empty,降低复杂度。对角化重要性矩阵,模型可以逐渐学习如何有效利用历史帧的信息,而不会在初期就破坏当前帧的语义。
  2. 引入简单有效的nucleus sampling。使用无加权的方式做聚合。
  3. 论文对“自监督”的定义,是只需提供多视图图像序列+文本高级指令+path log。其中文本高级指令是系统给的。

Comments