DeepSeek-V2 论文解读：MLA 与 DeepSeekMoE

¶ DeepSeek-V2 论文解读：MLA 与 DeepSeekMoE

¶ 核心贡献一句话总结

¶ 1. 背景：Transformer 的两大显存瓶颈

¶ 2. 创新一：Multi-Head Latent Attention (MLA)

¶ 3. 创新二：DeepSeekMoE

¶ 4. 训练效率：HPC Co-Design

¶ 5. 实验结果与性能对比

¶ 6. 关键洞察与启示

¶ 7. 与后续工作的关系

¶ 8. 局限与批评

¶ 参考资源