图像分类任务
图像分类判断图像属于哪个类别,是CV基础任务。数据集:ImageNet(1000类)、CIFAR(10/100类)。评估指标:准确率、Top-5准确率。
CNN架构演进
里程碑模型
- AlexNet(2012):深度学习突破,ImageNet冠军
- VGG(2014):深层小卷积核,简化设计
- ResNet(2015):残差连接,突破深度限制
- EfficientNet(2019):复合缩放,效率优化
CNN核心组件
卷积层:局部特征提取。池化层:降维聚合。全连接层:分类决策。批归一化:稳定训练。
视觉Transformer(ViT)
ViT将图像切块视为序列,用Transformer处理。自注意力捕捉全局依赖,突破CNN局部限制。在大规模数据上性能超越CNN。
优势:全局建模能力强;预训练迁移效果好。挑战:需要大量训练数据;小数据集不如CNN。
实践建议
小数据用预训练CNN微调;大数据可用ViT;实时应用考虑轻量模型(MobileNet)。
CNN统治视觉多年,Transformer正开启新篇章。