机器翻译的挑战
机器翻译实现跨语言自动转换。挑战:语言差异、歧义消解、文化表达、专业术语。需要深度语言理解。
统计机器翻译(SMT)
SMT从平行语料学习翻译概率模型。核心组件:翻译模型(P(f|e))、语言模型(P(e))、解码器。
短语翻译模型
短语表:从平行语料提取短语对及翻译概率。解码:启发式搜索找最优翻译序列。调序模型:处理语序差异。
代表系统:Moses、Google Translate早期版本。SMT需要大量特征工程和调参。
神经机器翻译(NMT)
NMT用端到端神经网络翻译。Encoder-Decoder架构:编码器编码源语言,解码器生成目标语言。
关键技术
- 注意力机制:对齐源语言和目标语言位置
- Transformer架构:并行计算,长序列处理
- 大规模预训练:多语言模型如mBART、NLLB
NMT的革命性进步
翻译质量大幅提升,尤其在语言差异大的场景。端到端训练简化开发,减少人工特征设计。
技术趋势
主流使用Transformer架构;大规模多语言预训练成为趋势;实时翻译质量接近人工。
从统计翻译到神经翻译,机器翻译完成了质的飞跃。