NLP的定义与目标
自然语言处理(NLP)是计算机科学与人工智能的交叉领域,目标是让计算机理解、解释和生成人类语言。核心挑战在于语言的歧义性、复杂性和上下文依赖性。
历史演进:三大阶段
规则时代(1950s-1980s)
早期NLP依赖人工编写语言学规则。专家系统通过语法规则分析句子结构。局限性:规则难以覆盖所有语言现象,维护成本高。
统计时代(1990s-2010s)
语料库语言学兴起,从数据中学习统计规律。n-gram语言模型、HMM、CRF成为主流。优势:可处理大规模数据,泛化能力强。
深度学习时代(2010s至今)
神经网络方法革新NLP:Word2Vec、LSTM、Transformer相继出现。预训练语言模型(BERT、GPT)开创新范式,性能大幅提升。
NLP核心任务
- 文本分类:情感分析、主题识别
- 序列标注:词性标注、命名实体识别
- 句法分析:依存分析、成分分析
- 语义理解:词义消歧、语义角色标注
- 生成任务:机器翻译、文本摘要
学习路径建议
从文本预处理入手,理解词向量的重要性,逐步深入序列标注、句法分析等任务。深度学习方法需先掌握神经网络基础。
NLP的演进反映了AI从符号推理到数据驱动的范式转变。