文本分类 | 自然语言处理博客

文本分类基础

文本分类为文档或句子分配预定义类别。应用场景：新闻分类、垃圾邮件检测、意图识别。是最广泛应用的NLP任务之一。

特征提取：TF-IDF统计词频权重；n-gram特征捕捉局部模式。分类器：朴素贝叶斯、SVM、逻辑回归。

基于词的条件独立假设，计算类别概率。简单高效，适合小数据集。公式：P(c|d) = P(c)·∏P(w_i|c)/P(d)。

卷积神经网络(TextCNN)：卷积提取局部特征，池化聚合信息。循环神经网络：序列建模，捕捉长程依赖。

BERT微调：在预训练BERT上添加分类层，少量训练数据即可达到高精度。成为文本分类主流方法。

情感分析识别文本情绪倾向：正面、负面、中性。细粒度分析：情感强度、情感原因抽取。

应用：舆情监控、产品评价分析、品牌口碑监测。

简单任务用传统方法快速实现；复杂任务用预训练模型微调；注意类别不平衡问题。

文本分类是NLP应用最广泛的任务，情感分析是其重要分支。