Transformer

Transformer架构:自注意力机制的崛起

2026-06-0515 分钟

自注意力机制

自注意力让序列中每个元素与所有元素交互:Attention(Q,K,V) = softmax(QK^T/√d)V。Q、K、V分别是查询、键、值向量。

核心优势:全局信息交互、并行计算、长程依赖建模。突破RNN的顺序处理限制。

多头注意力

多头注意力并行多个注意力函数,捕获不同子空间的特征模式:MultiHead(Q,K,V) = Concat(head_1,...,head_h)W^O。

Transformer架构组成

核心模块

位置编码

Transformer通过位置编码注入位置信息:PE(pos,2i) = sin(pos/10000^{2i/d})。正弦函数编码提供相对位置信息。

Transformer的革命性

抛弃循环结构,实现并行计算;自注意力建模全局依赖;成为GPT、BERT等大模型的基础架构。

Transformer改变了NLP,自注意力让每个词都能"看见"整句话。