这篇论文标题为《Vision Transformers Need More Than Registers》,由香港大学和中山大学的研究团队发表。它深入探讨了视觉 Transformer(ViT)中普遍存在的“伪影”(artifacts)现象,并提出了名为 LaSt-ViT (LazyStrike V
Midnight Margins
欢迎来到我的个人博客!这里记录着我的想法、学习和生活。
文章发布热力图
一
三
五
少
多
论文《Thinking with Visual Primitives》提出了一种全新的多模态大模型(MLLM)推理范式。其核心在于将空间坐标(框和点) 视为“思维的最小单元”,让模型在思考过程中通过“指代”来辅助“推理”。 核心洞察 (Core Insights) 1. 从“感知鸿沟”转向“引用鸿沟
尝试FP16->full FP32、autocast+simplify等等,仍然是同样大错,说明官方参考脚本里的两点不能解决我们的双目 pose-conditioned DA3-small 子图问题;Python TensorRT build API 本身通常不会改变数值。prepare_token
BN层(批归一化) 的核心思想直接源自传统机器学习中的白化(Whitening) 操作。为了降低计算复杂度并保证操作的可微性,BN层对白化进行了近似与简化,在加速网络收敛的同时有效缓解了梯度消失。 [1, 2] 1. 什么是白化? 白化是一种数据预处理技术,包含去均值、
PnP的定义 PnP = Perspective-n-Point,中文常叫: 透视n点位姿估计问题 或 n点透视定位问题 它的标准定义是: 已知n个三维点在某个参考坐标系下的坐标,以及它们在图像中的二维投影点,同时已知相机内参,求相机相对于这些三维点所在坐标系的位姿,也就是R,t。 OpenCV 对
在SLAM中大量地使用高斯牛顿法等最小二乘拟合,比如原来的问题是: y=\exp(ax^2+bx+c) 给定很多组观测 (x_i,y_i) ,去求参数 X=[a,b,c]^T 但真实数据通常有噪声,所以一般不可能存在一组 a,b,c ,让每个点都严格满足 y_i=\exp(ax_i^2+bx_i+c
背景知识 Isotropic Gaussian 普通的一维高斯分布是“一座纸上画的山,一维,中心峰的x坐标由μ给出,表示分布的均值,μ∈R;山峰的宽度受方差σ2控制,σ∈(0,∞)” 而多维的高斯分布是“N维空间中的山,多维,中心峰的仍然是μ,仍表示分布的均值,不过μ为N维向量;山峰的宽度受协方差∑
从左到右依次是BN,LN,IN,GN 众所周知,深度网络中的数据维度一般是[N, C, H, W]或者[N, H, W,C]格式,N是batch size,H/W是feature的高/宽,C是feature的channel,压缩H/W至一个维度,其三维的表示如上图,假设单个方格的长度是1,那么其表示
重新温习SLAM的一些基本知识 经典特征提取与匹配 ORB 特征 ORB 特征亦关键点和描述子两部分组成。 FAST 关键点 FAST 是一种角点,主要检测局部像素灰度变化明显的地方,以速度快著称。它的思想是:如果 一个像素与邻域的像素差别较大(过亮或过暗),那么它更可能是角点。相比于其他角点检测算
1 / 4
Next