机器翻译 | 自然语言处理博客

机器翻译的挑战

机器翻译实现跨语言自动转换。挑战：语言差异、歧义消解、文化表达、专业术语。需要深度语言理解。

SMT从平行语料学习翻译概率模型。核心组件：翻译模型(P(f|e))、语言模型(P(e))、解码器。

短语表：从平行语料提取短语对及翻译概率。解码：启发式搜索找最优翻译序列。调序模型：处理语序差异。

代表系统：Moses、Google Translate早期版本。SMT需要大量特征工程和调参。

NMT用端到端神经网络翻译。Encoder-Decoder架构：编码器编码源语言，解码器生成目标语言。

翻译质量大幅提升，尤其在语言差异大的场景。端到端训练简化开发，减少人工特征设计。

主流使用Transformer架构；大规模多语言预训练成为趋势；实时翻译质量接近人工。

从统计翻译到神经翻译，机器翻译完成了质的飞跃。