计算机视觉概论 | 计算机视觉博客

计算机视觉的定义

计算机视觉(CV)是让计算机从图像或视频中提取信息、理解场景的技术。目标：让机器获得类似人类的视觉感知能力，识别物体、理解动作、重建场景。

手工设计特征：边缘检测、SIFT、HOG。模板匹配、统计学方法。局限性：特征设计依赖专家经验，泛化能力有限。

2012年AlexNet突破ImageNet，开启深度视觉时代。CNN自动学习特征，从低级到高级层次化表示。性能大幅超越传统方法。

ViT视觉Transformer挑战CNN主导地位。自注意力机制在视觉任务表现出色。多模态学习整合视觉与语言。

先掌握图像处理基础，理解CNN架构原理，逐步深入检测、分割等高级任务。实践项目驱动学习效果更佳。

计算机视觉让机器从"看见"到"理解"，是AI最直观的应用领域。