视频理解的特点
视频是时序图像序列,包含时间维度信息。任务:动作识别、视频分割、视频摘要、视频问答。比静态图像更复杂。
动作识别
识别视频中的人体动作类别。数据集:Kinetics、HMDB51、UCF101。挑战:时序建模、计算量大。
经典方法
- 双流网络:RGB帧+光流,空间+时序信息
- 3D CNN:I3D、C3D,时空卷积联合建模
- 时序注意力:TimeSformer,注意力处理帧序列
视频分割
视频对象分割(VOS):追踪分割视频中的特定对象。方法:Mask Propagation、交互式分割。应用:视频编辑、特效制作。
视频摘要
从长视频提取关键片段生成摘要。方法:聚类关键帧、重要性评分、动态规划选择。应用:监控录像回放、视频浏览。
技术趋势
视频Transformer成为新主流;预训练视频模型涌现;实时视频分析需求增长。
视频理解处理时间维度,让机器理解动态世界。