Transformer

¶ Transformer

¶ 核心创新

¶ 架构总览

¶ 缩放点积注意力（Scaled Dot-Product Attention）

¶ 多头注意力（Multi-Head Attention）

¶ 位置编码（Positional Encoding）

¶ 逐位置前馈网络（Position-wise FFN）

¶ 层归一化（Layer Normalization）

¶ 掩码机制

¶ Transformer 的主要变体

¶ Flash Attention：高效注意力计算

¶ Transformer 的实际应用流程

¶ 性能 Benchmark

¶ 局限性与挑战

¶ 总结

¶ Transformer

¶ 核心创新

¶ 架构总览

¶ 缩放点积注意力（Scaled Dot-Product Attention）

¶ 多头注意力（Multi-Head Attention）

¶ 位置编码（Positional Encoding）

¶ 逐位置前馈网络（Position-wise FFN）

¶ 层归一化（Layer Normalization）

¶ 掩码机制

¶ Transformer 的主要变体

¶ Flash Attention：高效注意力计算

¶ Transformer 的实际应用流程

¶ 性能 Benchmark

¶ 局限性与挑战

¶ 总结