Transformer的革命性意义
Transformer架构是现代大语言模型的基础,彻底改变了NLP领域的范式。2017年Google发表的论文"Attention Is All You Need"提出了这一架构,用纯注意力机制替代了传统的循环和卷积结构。
核心优势
- 并行计算:不再依赖序列顺序,训练效率大幅提升
- 全局依赖:每个位置可以直接关注所有其他位置
- 长距离建模:解决了RNN的长距离依赖问题
自注意力机制
自注意力(Self-Attention)是Transformer的核心。给定序列,自注意力计算每个位置与所有其他位置的相关性。
注意力公式
Attention(Q, K, V) = softmax(QK^T / √d_k) V
Q、K、V的含义
- Query(Q):查询向量,代表当前位置的信息需求
- Key(K):键向量,用于匹配查询
- Value(V):值向量,存储实际信息内容
多头注意力
多头注意力(Multi-Head Attention)让模型从多个角度关注输入。每个头学习不同的注意力模式,最后拼接所有头的输出。
多头注意力的本质是让模型同时关注不同类型的关系。
位置编码
由于Transformer没有循环结构,需要位置编码(Position Encoding)提供位置信息。原论文使用sin/cos函数生成固定的位置编码。
总结
Transformer的核心是自注意力机制,通过Q、K、V的交互建模全局依赖。多头注意力丰富了注意力模式,位置编码弥补了序列信息。