为什么需要预处理
原始文本充满噪声:标点符号、大小写、编码问题、HTML标签等。预处理清洗数据,为后续任务提供干净输入,直接影响模型性能。
分词:文本处理的第一步
分词将连续文本切分为独立词语单元。中文分词尤为关键,因为中文没有天然空格分隔。
分词方法
- 基于规则:正向最大匹配、逆向最大匹配
- 基于统计:HMM、CRF序列标注方法
- 深度学习:BiLSTM+CRF、BERT分词
主流工具:jieba(中文)、NLTK/spaCy(英文)。选择取决于任务需求和语言特性。
文本清洗
去除HTML标签、特殊字符、无意义符号。统一编码格式(UTF-8)。处理缺失值和异常数据。
标准化处理
大小写统一:英文文本通常转为小写。去除停用词:过滤高频无意义词(the, is, 等)。词干提取:将词汇还原到词根形式。
预处理注意事项
过度清洗可能丢失有用信息;停用词列表需根据任务定制;中文分词需考虑歧义消解。
预处理质量决定上限,后续模型只能在此基础上优化。