图像分类 | 计算机视觉博客

图像分类任务

图像分类判断图像属于哪个类别，是CV基础任务。数据集：ImageNet(1000类)、CIFAR(10/100类)。评估指标：准确率、Top-5准确率。

卷积层：局部特征提取。池化层：降维聚合。全连接层：分类决策。批归一化：稳定训练。

ViT将图像切块视为序列，用Transformer处理。自注意力捕捉全局依赖，突破CNN局部限制。在大规模数据上性能超越CNN。

优势：全局建模能力强；预训练迁移效果好。挑战：需要大量训练数据；小数据集不如CNN。

小数据用预训练CNN微调；大数据可用ViT；实时应用考虑轻量模型(MobileNet)。

CNN统治视觉多年，Transformer正开启新篇章。