自注意力机制
自注意力让序列中每个元素与所有元素交互:Attention(Q,K,V) = softmax(QK^T/√d)V。Q、K、V分别是查询、键、值向量。
核心优势:全局信息交互、并行计算、长程依赖建模。突破RNN的顺序处理限制。
多头注意力
多头注意力并行多个注意力函数,捕获不同子空间的特征模式:MultiHead(Q,K,V) = Concat(head_1,...,head_h)W^O。
Transformer架构组成
核心模块
- 编码器:多头注意力 + 前馈网络,堆叠N层
- 解码器:带掩码的多头注意力 + 编码器注意力 + 前馈网络
- 位置编码:注入序列位置信息,弥补注意力无序特性
位置编码
Transformer通过位置编码注入位置信息:PE(pos,2i) = sin(pos/10000^{2i/d})。正弦函数编码提供相对位置信息。
Transformer的革命性
抛弃循环结构,实现并行计算;自注意力建模全局依赖;成为GPT、BERT等大模型的基础架构。
Transformer改变了NLP,自注意力让每个词都能"看见"整句话。