词向量的革命性意义
传统方法用离散符号表示词语,无法捕捉语义关系。词向量将词语映射到连续向量空间,相似词语在空间中距离相近,实现语义计算。
Word2Vec:分布式表示的开创者
Word2Vec(Mikolov, 2013)通过预测上下文学习词向量。两种架构:CBOW(从上下文预测中心词)和Skip-gram(从中心词预测上下文)。
核心思想
"词的意义由其上下文决定"(分布假设)。通过大量语料训练,词向量自动编码语义和语法信息。
经典发现:向量运算捕捉语义关系。v(king) - v(man) + v(woman) ≈ v(queen)。
GloVe:全局向量表示
GloVe(Pennington, 2014)结合全局共现统计和局部上下文窗口。利用词语共现矩阵,建模词语间的关系概率。
优势:更好地捕捉全局统计信息;在小数据集表现稳定;训练效率较高。
预训练词向量的应用
词向量作为下游任务的输入特征,显著提升性能。可直接使用预训练向量,或根据任务微调。
使用建议
通用任务用预训练向量;领域任务可在领域语料上训练;维度选择通常100-300维。
词向量让机器第一次真正"理解"词语的语义。