词向量 | 自然语言处理博客

词向量的革命性意义

传统方法用离散符号表示词语，无法捕捉语义关系。词向量将词语映射到连续向量空间，相似词语在空间中距离相近，实现语义计算。

Word2Vec(Mikolov, 2013)通过预测上下文学习词向量。两种架构：CBOW(从上下文预测中心词)和Skip-gram(从中心词预测上下文)。

"词的意义由其上下文决定"(分布假设)。通过大量语料训练，词向量自动编码语义和语法信息。

经典发现：向量运算捕捉语义关系。v(king) - v(man) + v(woman) ≈ v(queen)。

GloVe(Pennington, 2014)结合全局共现统计和局部上下文窗口。利用词语共现矩阵，建模词语间的关系概率。

优势：更好地捕捉全局统计信息；在小数据集表现稳定；训练效率较高。

词向量作为下游任务的输入特征，显著提升性能。可直接使用预训练向量，或根据任务微调。

通用任务用预训练向量；领域任务可在领域语料上训练；维度选择通常100-300维。

词向量让机器第一次真正"理解"词语的语义。