Archives

最小二乘拟合基础

在SLAM中大量地使用高斯牛顿法等最小二乘拟合,比如原来的问题是: y=\exp(ax^2+bx+c) 给定很多组观测 (x_i,y_i) ,去求参数 X=[a,b,c]^T 但真实数据通常有噪声,所以一般不可能存在一组 a,b,c ,让每个点都严格满足 y_i=\exp(ax_i^2+bx_i+c

LeWorldModel论文阅读

背景知识 Isotropic Gaussian 普通的一维高斯分布是“一座纸上画的山,一维,中心峰的x坐标由μ给出,表示分布的均值,μ∈R;山峰的宽度受方差σ2控制,σ∈(0,∞)” 而多维的高斯分布是“N维空间中的山,多维,中心峰的仍然是μ,仍表示分布的均值,不过μ为N维向量;山峰的宽度受协方差∑

深度学习CV任务中的Normalization Layer

从左到右依次是BN,LN,IN,GN 众所周知,深度网络中的数据维度一般是[N, C, H, W]或者[N, H, W,C]格式,N是batch size,H/W是feature的高/宽,C是feature的channel,压缩H/W至一个维度,其三维的表示如上图,假设单个方格的长度是1,那么其表示

视觉里程计(WIP)

重新温习SLAM的一些基本知识 经典特征提取与匹配 ORB 特征 ORB 特征亦关键点和描述子两部分组成。 FAST 关键点 FAST 是一种角点,主要检测局部像素灰度变化明显的地方,以速度快著称。它的思想是:如果 一个像素与邻域的像素差别较大(过亮或过暗),那么它更可能是角点。相比于其他角点检测算

S4-Driver论文阅读

2025年waymo方案调研的文章阅读的第一篇,简记一下阅读所得。 首先这是一篇端到端的、输入图像、输出轨迹的工作。主要亮点在于Meta-decision、无显式深度估计、sparse voxel表征等。对我们设计自监督轨迹生成模型有挺大启发的。 亮点 Meta-decision方法,通过两次输出,

损失函数的选择MSE MAE Huber loss

1. 均方误差(Mean Square Error,MSE) MSE 对大误差非常敏感(平方级惩罚),所以它会逼着模型去尽量拟合那些离群点。 L_{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 MSE 曲线的特点是光滑连续、可导,便于使用梯度

UCB 与 ε-贪心:两种经典探索策略的定义与本质差异

背景 在多臂老虎机(Multi-Armed Bandit)问题里,决策者面对一组可选动作(“拉哪台老虎机”或“选哪个策略/模型”),每次选择会得到随机回报。目标是在长期累积回报最大化。这个问题的核心矛盾只有一句话:**探索(exploration)与利用(exploitation)**如何平衡——既

多帧点云分类评估:Point-wise与帧公平Frame-wise的科学性比较

多帧点云分类评估:点公平(Point-wise)与帧公平(Frame-wise)的科学性比较 摘要 多帧点云分类任务的评估通常有两类口径:点公平(将所有帧的所有点合并后计算一次指标)与帧公平(逐帧计算指标后对帧求平均)。两者对应不同的统计估计对象与“公平单位”,在点数分布不均、场景难度变化、时序相关

手推 Policy Gradient

1. 知识储备 1.1 期望 = 求和 / 积分 随机变量 X 的期望就是“按概率加权平均”: 离散: \mathbb E[f(X)]=\sum_x p(x)f(x) 连续: \mathbb E[f(X)]=\int p(x)f(x)\,dx 所以当我们写 \mathbb E_{\tau\sim p

点云特征值与几何意义

从局部点云坐标到特征值 取局部邻域点集 给定中心点 p_0 ,用 kNN 或半径搜索得到邻域: \mathcal{N}(p_0)=\{p_i\}_{i=1}^{N},\quad p_i= \begin{bmatrix} x_i\\y_i\\z_i \end{bmatrix} 常见:kNN(如 k=2

目标检测任务 每个类别做2分类交叉熵 vs softmax

在目标检测里,这俩其实对应两种不同的“类别假设”,没有绝对谁更“合理”,取决于任务是不是“互斥单标签”。 1) Softmax(单个多类交叉熵)什么时候更合理 前提:同一个框只属于一个类别(互斥),即 one-of-K。 典型:COCO/VO C 检测、YOLO/FCOS/Faster R-CNN

初学强化学习有感

最近在看CS224R的课程,模仿学习中提到了DAger方法。其中提到,纯粹靠模仿专家轨迹训练出来的模型泛化性不足,所以可以依靠给出一个专家模型(这个模型可以是NN也可以是真的人类专家),针对实际场景中超出模仿学习采样空间的状态,通过迭代收集模型的状态分布,并用专家动作标注,逐步提升模型在这些状态上的

像用本地硬盘一样丝滑地使用NAS

本文介绍如何在Ubuntu20.04挂载NAS到本地,以将NAS上的感知数据目录/_Software/模块/感知/挂载到本地目录/mnt/nas为例。 首先在你本地/mnt文件目录中新建一个文件夹 sudo mkdir /mnt/nas 然后下载nfs的服务和组件 sudo apt-get inst

【转载】图像采样中的蓝噪声方法

最近看了一本很有意思的书,Nicolas P. Rougier的From Python to Numpy。其中有一小节Blue noise sampling,讲的是所谓的面向问题的代码向量化,很有意思,简单记录一下。(当然,向量化的代码可以提升

交换机vs路由器

局域网传数据、交互,交换机延迟是不是比路由器低的多,为什么?

paper list 202506

“Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D” “Uncertainty-Aware CNNs for Depth Completion: Uncert

深度转视差代码

内参fx可以从镜头焦距F,sensor_width直接计算得到 import cv2 import numpy as np import matplotlib.pyplot as plt depth_l = np.load('stereo_pinhole/0000.npy') depth_r =

2025.1.2实验:二维深度图Depth-first Point Filtering

现象描述 因为安装位置的关系,LiDAR在鱼眼相机的上面,导致点云投影到鱼眼相机时,鱼眼相机不可视的点投影到了图像上,且与近处点云交错重叠。如图,左边显示器顶部出现了深度交错。 解决思路 类似Z-buffering的原理,思路是用前面的点过滤掉后面的点。根据透视原理,近处点云所投影的像素面积是会比远

file

vtoyboot-1.0.35.iso

continue to train from best checkpoint rather than last one

背景 通常我们会选择连续若干个epoch后train loss不下降时就降低lr(为方便讨论,这里统一选择减半lr)的策略。具体来说,train的时候通过计算eval分数判断best weight,同时记录last weight。但是在发现train loss无法下降时其实已经不是最好的时机,通过实

batch size,学习率,与泛化性

一般来说batch size越小,越接近实际推理变化丰富的实际情况,小bs训练出的模型在val set上分数更高。 可以一开始尽可能的大bs训练,然后再在bs=1下继续收敛。 learning rate使用cosine退火策略可能有2%左右的提升。但是耗费的时间多得多,属于最后考虑的策略。 在实验开

搬家成功

从用了近十年的wordpress切换到HALO,体验不错😀