三维视觉 | 计算机视觉博客

三维视觉的意义

三维视觉从2D图像恢复空间结构。应用：自动驾驶环境感知、AR/VR场景重建、机器人导航。

从单张图像估计像素深度值。深度学习方法：编码器提取特征，解码器输出深度图。挑战：缺乏几何约束，需大量训练数据。

双摄像头获取视差，计算深度。流程：相机标定→图像校正→视差计算→深度转换。经典算法：SGM、PatchMatch。

视差d与深度Z关系：Z = f·B/d，其中f是焦距，B是基线距离。视差越大，深度越小(物体越近)。

多张图像从不同角度拍摄，重建3D模型。结构光、ToF深度相机提供主动深度测量。SLAM同时定位与建图。

静态场景用双目；动态场景用单目深度学习；精准重建用激光雷达或结构光。

三维视觉让2D图像升维，还原真实世界的空间结构。