Archives - Midnight Margins

2026-05-13

实战学习透视n点位姿估计问题(PnP, Perspective-n-Point)

PnP的定义 PnP = Perspective-n-Point，中文常叫：透视n点位姿估计问题或 n点透视定位问题它的标准定义是：已知n个三维点在某个参考坐标系下的坐标，以及它们在图像中的二维投影点，同时已知相机内参，求相机相对于这些三维点所在坐标系的位姿，也就是R,t。 OpenCV 对

2026-04-17

最小二乘拟合基础

在SLAM中大量地使用高斯牛顿法等最小二乘拟合，比如原来的问题是： y=\exp(ax^2+bx+c) 给定很多组观测 (x_i,y_i) ，去求参数 X=[a,b,c]^T 但真实数据通常有噪声，所以一般不可能存在一组 a,b,c ，让每个点都严格满足 y_i=\exp(ax_i^2+bx_i+c

2026-04-17

LeWorldModel论文阅读

背景知识 Isotropic Gaussian 普通的一维高斯分布是“一座纸上画的山，一维，中心峰的x坐标由μ给出，表示分布的均值，μ∈R；山峰的宽度受方差σ2控制，σ∈(0,∞)” 而多维的高斯分布是“N维空间中的山，多维，中心峰的仍然是μ，仍表示分布的均值，不过μ为N维向量；山峰的宽度受协方差∑

2026-04-03

深度学习CV任务中的Normalization Layer

从左到右依次是BN，LN，IN，GN 众所周知，深度网络中的数据维度一般是[N, C, H, W]或者[N, H, W，C]格式，N是batch size，H/W是feature的高/宽，C是feature的channel，压缩H/W至一个维度，其三维的表示如上图，假设单个方格的长度是1，那么其表示

2026-03-25

视觉里程计（WIP）

重新温习SLAM的一些基本知识经典特征提取与匹配 ORB 特征 ORB 特征亦关键点和描述子两部分组成。 FAST 关键点 FAST 是一种角点,主要检测局部像素灰度变化明显的地方,以速度快著称。它的思想是:如果一个像素与邻域的像素差别较大(过亮或过暗),那么它更可能是角点。相比于其他角点检测算

2026-03-24

S4-Driver论文阅读

2025年waymo方案调研的文章阅读的第一篇，简记一下阅读所得。首先这是一篇端到端的、输入图像、输出轨迹的工作。主要亮点在于Meta-decision、无显式深度估计、sparse voxel表征等。对我们设计自监督轨迹生成模型有挺大启发的。亮点 Meta-decision方法，通过两次输出，

2026-02-26

损失函数的选择MSE MAE Huber loss

1. 均方误差（Mean Square Error，MSE） MSE 对大误差非常敏感（平方级惩罚），所以它会逼着模型去尽量拟合那些离群点。 L_{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 MSE 曲线的特点是光滑连续、可导，便于使用梯度

2026-01-17

UCB 与 ε-贪心：两种经典探索策略的定义与本质差异

背景在多臂老虎机（Multi-Armed Bandit）问题里，决策者面对一组可选动作（“拉哪台老虎机”或“选哪个策略/模型”），每次选择会得到随机回报。目标是在长期累积回报最大化。这个问题的核心矛盾只有一句话：**探索（exploration）与利用（exploitation）**如何平衡——既

2026-01-08

多帧点云分类评估：Point-wise与帧公平Frame-wise的科学性比较

多帧点云分类评估：点公平（Point-wise）与帧公平（Frame-wise）的科学性比较摘要多帧点云分类任务的评估通常有两类口径：点公平（将所有帧的所有点合并后计算一次指标）与帧公平（逐帧计算指标后对帧求平均）。两者对应不同的统计估计对象与“公平单位”，在点数分布不均、场景难度变化、时序相关

2026-01-05

手推 Policy Gradient

1. 知识储备 1.1 期望 = 求和 / 积分随机变量 X 的期望就是“按概率加权平均”：离散： \mathbb E[f(X)]=\sum_x p(x)f(x) 连续： \mathbb E[f(X)]=\int p(x)f(x)\,dx 所以当我们写 \mathbb E_{\tau\sim p

2025-12-24

点云特征值与几何意义

从局部点云坐标到特征值取局部邻域点集给定中心点 p_0 ，用 kNN 或半径搜索得到邻域： \mathcal{N}(p_0)=\{p_i\}_{i=1}^{N},\quad p_i= \begin{bmatrix} x_i\\y_i\\z_i \end{bmatrix} 常见：kNN（如 k=2

2025-12-22

目标检测任务每个类别做2分类交叉熵 vs softmax

在目标检测里，这俩其实对应两种不同的“类别假设”，没有绝对谁更“合理”，取决于任务是不是“互斥单标签”。 1) Softmax（单个多类交叉熵）什么时候更合理前提：同一个框只属于一个类别（互斥），即 one-of-K。典型：COCO/VO C 检测、YOLO/FCOS/Faster R-CNN

2025-12-22

初学强化学习有感

最近在看CS224R的课程，模仿学习中提到了DAger方法。其中提到，纯粹靠模仿专家轨迹训练出来的模型泛化性不足，所以可以依靠给出一个专家模型（这个模型可以是NN也可以是真的人类专家），针对实际场景中超出模仿学习采样空间的状态，通过迭代收集模型的状态分布，并用专家动作标注，逐步提升模型在这些状态上的

2025-10-27

像用本地硬盘一样丝滑地使用NAS

本文介绍如何在Ubuntu20.04挂载NAS到本地，以将NAS上的感知数据目录/_Software/模块/感知/挂载到本地目录/mnt/nas为例。首先在你本地/mnt文件目录中新建一个文件夹 sudo mkdir /mnt/nas 然后下载nfs的服务和组件 sudo apt-get inst

2025-07-17

【转载】图像采样中的蓝噪声方法

最近看了一本很有意思的书，Nicolas P. Rougier的From Python to Numpy。其中有一小节Blue noise sampling，讲的是所谓的面向问题的代码向量化，很有意思，简单记录一下。（当然，向量化的代码可以提升

2025-07-16

深度图在线可视化

2025-07-14

交换机vs路由器

局域网传数据、交互，交换机延迟是不是比路由器低的多，为什么?

2025-06-21

随机密码生成器

🔐 随机密码生成器密码长度：

2025-06-16

paper list 202506

“Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D” “Uncertainty-Aware CNNs for Depth Completion: Uncert

2025-04-15

深度转视差代码

内参fx可以从镜头焦距F,sensor_width直接计算得到 import cv2 import numpy as np import matplotlib.pyplot as plt depth_l = np.load('stereo_pinhole/0000.npy') depth_r =

2025-01-02

2025.1.2实验：二维深度图Depth-first Point Filtering

现象描述因为安装位置的关系，LiDAR在鱼眼相机的上面，导致点云投影到鱼眼相机时，鱼眼相机不可视的点投影到了图像上，且与近处点云交错重叠。如图，左边显示器顶部出现了深度交错。解决思路类似Z-buffering的原理，思路是用前面的点过滤掉后面的点。根据透视原理，近处点云所投影的像素面积是会比远

2024-12-21

file

vtoyboot-1.0.35.iso

2024-12-18

continue to train from best checkpoint rather than last one

背景通常我们会选择连续若干个epoch后train loss不下降时就降低lr（为方便讨论，这里统一选择减半lr）的策略。具体来说，train的时候通过计算eval分数判断best weight，同时记录last weight。但是在发现train loss无法下降时其实已经不是最好的时机，通过实

2024-12-02

点云深度可视化标定与自动生成

2024-11-29

batch size，学习率，与泛化性

一般来说batch size越小，越接近实际推理变化丰富的实际情况，小bs训练出的模型在val set上分数更高。可以一开始尽可能的大bs训练，然后再在bs=1下继续收敛。 learning rate使用cosine退火策略可能有2%左右的提升。但是耗费的时间多得多，属于最后考虑的策略。在实验开

2024-11-29

搬家成功

从用了近十年的wordpress切换到HALO，体验不错😀