计算机视觉的定义
计算机视觉(CV)是让计算机从图像或视频中提取信息、理解场景的技术。目标:让机器获得类似人类的视觉感知能力,识别物体、理解动作、重建场景。
CV的核心任务
- 图像分类:判断图像属于哪个类别
- 目标检测:定位图像中物体的位置和类别
- 图像分割:像素级别的场景理解
- 姿态估计:识别人体或物体的姿态
- 三维重建:从2D图像恢复3D结构
技术演进历程
传统方法时代
手工设计特征:边缘检测、SIFT、HOG。模板匹配、统计学方法。局限性:特征设计依赖专家经验,泛化能力有限。
深度学习革命
2012年AlexNet突破ImageNet,开启深度视觉时代。CNN自动学习特征,从低级到高级层次化表示。性能大幅超越传统方法。
新范式探索
ViT视觉Transformer挑战CNN主导地位。自注意力机制在视觉任务表现出色。多模态学习整合视觉与语言。
学习路径建议
先掌握图像处理基础,理解CNN架构原理,逐步深入检测、分割等高级任务。实践项目驱动学习效果更佳。
计算机视觉让机器从"看见"到"理解",是AI最直观的应用领域。