图像分类

图像分类:从CNN到视觉Transformer

2026-06-1714 分钟

图像分类任务

图像分类判断图像属于哪个类别,是CV基础任务。数据集:ImageNet(1000类)、CIFAR(10/100类)。评估指标:准确率、Top-5准确率。

CNN架构演进

里程碑模型

CNN核心组件

卷积层:局部特征提取。池化层:降维聚合。全连接层:分类决策。批归一化:稳定训练。

视觉Transformer(ViT)

ViT将图像切块视为序列,用Transformer处理。自注意力捕捉全局依赖,突破CNN局部限制。在大规模数据上性能超越CNN。

优势:全局建模能力强;预训练迁移效果好。挑战:需要大量训练数据;小数据集不如CNN。

实践建议

小数据用预训练CNN微调;大数据可用ViT;实时应用考虑轻量模型(MobileNet)。

CNN统治视觉多年,Transformer正开启新篇章。