Transformer架构 | 深度学习博客

自注意力机制

自注意力让序列中每个元素与所有元素交互：Attention(Q,K,V) = softmax(QK^T/√d)V。Q、K、V分别是查询、键、值向量。

核心优势：全局信息交互、并行计算、长程依赖建模。突破RNN的顺序处理限制。

多头注意力并行多个注意力函数，捕获不同子空间的特征模式：MultiHead(Q,K,V) = Concat(head_1,...,head_h)W^O。

Transformer通过位置编码注入位置信息：PE(pos,2i) = sin(pos/10000^{2i/d})。正弦函数编码提供相对位置信息。

抛弃循环结构，实现并行计算；自注意力建模全局依赖；成为GPT、BERT等大模型的基础架构。

Transformer改变了NLP，自注意力让每个词都能"看见"整句话。