Midnight Margins

2026-07-01

论文阅读：Vision Transformers Need More Than Registers

这篇论文标题为《Vision Transformers Need More Than Registers》，由香港大学和中山大学的研究团队发表。它深入探讨了视觉 Transformer（ViT）中普遍存在的“伪影”（artifacts）现象，并提出了名为 LaSt-ViT (LazyStrike V

2026-07-01

论文阅读：DeepSeek-AI的《Thinking with Visual Primitives》

论文《Thinking with Visual Primitives》提出了一种全新的多模态大模型（MLLM）推理范式。其核心在于将空间坐标（框和点）视为“思维的最小单元”，让模型在思考过程中通过“指代”来辅助“推理”。核心洞察 (Core Insights) 1. 从“感知鸿沟”转向“引用鸿沟

2026-06-24

简单记录一下DA3转TRT踩的坑

尝试FP16->full FP32、autocast+simplify等等，仍然是同样大错，说明官方参考脚本里的两点不能解决我们的双目 pose-conditioned DA3-small 子图问题；Python TensorRT build API 本身通常不会改变数值。prepare_token

2026-06-09

Occ可视化 v0.1

2026-06-09

BN层与白化(Whitening)

BN层（批归一化）的核心思想直接源自传统机器学习中的白化（Whitening）操作。为了降低计算复杂度并保证操作的可微性，BN层对白化进行了近似与简化，在加速网络收敛的同时有效缓解了梯度消失。 [1, 2] 1. 什么是白化？白化是一种数据预处理技术，包含去均值、

2026-05-13

实战学习透视n点位姿估计问题(PnP, Perspective-n-Point)

PnP的定义 PnP = Perspective-n-Point，中文常叫：透视n点位姿估计问题或 n点透视定位问题它的标准定义是：已知n个三维点在某个参考坐标系下的坐标，以及它们在图像中的二维投影点，同时已知相机内参，求相机相对于这些三维点所在坐标系的位姿，也就是R,t。 OpenCV 对

2026-04-17

最小二乘拟合基础

在SLAM中大量地使用高斯牛顿法等最小二乘拟合，比如原来的问题是： y=\exp(ax^2+bx+c) 给定很多组观测 (x_i,y_i) ，去求参数 X=[a,b,c]^T 但真实数据通常有噪声，所以一般不可能存在一组 a,b,c ，让每个点都严格满足 y_i=\exp(ax_i^2+bx_i+c

2026-04-17

LeWorldModel论文阅读

背景知识 Isotropic Gaussian 普通的一维高斯分布是“一座纸上画的山，一维，中心峰的x坐标由μ给出，表示分布的均值，μ∈R；山峰的宽度受方差σ2控制，σ∈(0,∞)” 而多维的高斯分布是“N维空间中的山，多维，中心峰的仍然是μ，仍表示分布的均值，不过μ为N维向量；山峰的宽度受协方差∑

2026-04-03

深度学习CV任务中的Normalization Layer

从左到右依次是BN，LN，IN，GN 众所周知，深度网络中的数据维度一般是[N, C, H, W]或者[N, H, W，C]格式，N是batch size，H/W是feature的高/宽，C是feature的channel，压缩H/W至一个维度，其三维的表示如上图，假设单个方格的长度是1，那么其表示

2026-03-25

视觉里程计（WIP）

重新温习SLAM的一些基本知识经典特征提取与匹配 ORB 特征 ORB 特征亦关键点和描述子两部分组成。 FAST 关键点 FAST 是一种角点,主要检测局部像素灰度变化明显的地方,以速度快著称。它的思想是:如果一个像素与邻域的像素差别较大(过亮或过暗),那么它更可能是角点。相比于其他角点检测算