Attention Is All You Need

位置	类型	$K$ 、 $V$ 来源	$Q$ 来源	用途
编码器 Self-Attention	自注意力	编码器输入	编码器输入	编码输入序列的上下文表示
解码器 Masked Self-Attention	自注意力（掩码）	解码器输入	解码器输入	解码器自回归生成
解码器 Cross-Attention	交叉注意力	编码器输出	解码器输入	解码器关注编码器输出

任务	模型	BLEU	训练成本（FLOPs）
WMT 2014 英→德	BiLSTM + Attention (SOTA)	26.5	-
WMT 2014 英→德	ConvS2S (Fb)	25.2	9.6
WMT 2014 英→德	Transformer (Base)	27.3	3.3
WMT 2014 英→德	Transformer (Big)	28.4	2.3
WMT 2014 英→法	ConvS2S + MoE	40.5	32.0
WMT 2014 英→法	Transformer (Base)	38.1	4.1
WMT 2014 英→法	Transformer (Big)	41.8	2.3

层类型	每层复杂度	序列操作数	最大路径长度
自注意力	$O(n^2 \cdot d)$	$O (1)$	$O (1)$
循环网络	$O(n \cdot d^2)$	$O (n)$	$O (n)$
卷积	$O(k \cdot n \cdot d^2)$	$O (1)$	$O(\log_k(n))$

¶ Attention Is All You Need