句法分析的意义
句法分析自动识别句子语法结构,揭示词语间的关系。为语义分析、信息抽取、机器翻译提供结构支撑。
成分分析:短语结构树
成分分析将句子分解为嵌套短语:句子(S)、名词短语(NP)、动词短语(VP)等。结果表示为树结构。
分析方法
基于规则:上下文无关语法(CFG)推导分析树。基于统计:概率上下文无关语法(PCFG),从树库学习概率。
代表数据集:Penn Treebank(英文)、CTB(中文)。主流工具:Stanford Parser、Berkeley Parser。
依存分析:词间关系图
依存分析识别词间直接关系:主谓关系、动宾关系等。结果是有向图,每个词依赖另一个词。
依存语法优势
- 直接表示词间关系,更贴近语义
- 不受短语嵌套限制,表示更灵活
- 适合信息抽取、关系抽取任务
主流方法:基于转移的解析(arc-standard算法)、基于图的解析(MSTParser)。
深度学习方法
神经网络依存解析器用词向量作为输入,自动学习特征。BiLSTM-based parser、BERT-based parser性能显著提升。
应用建议
信息抽取用依存分析;语言学研究用成分分析;现代应用倾向依存分析。
句法分析让机器理解句子的结构,是语义理解的前提。