本页索引了 AI 发展史上最具里程碑意义的论文,按时间线和技术领域分类组织。每篇论文都附有独立的知识库页面,包含技术原理、架构图解、核心公式推导、实验结果数据和实践应用分析。
| 论文 |
年份 |
核心创新 |
参数规模 |
训练数据 |
| Attention Is All You Need |
2017 |
Scaled Dot-Product Attention, Multi-Head Attention, Positional Encoding |
Transformer-Base: 65M, Big: 213M |
WMT 2014 英德 (4.5M 句对) |
| Vision Transformer (ViT) |
2020 |
图像分块 Patch Embedding + Transformer Encoder |
ViT-B/16: 86M, ViT-L/16: 307M |
ImageNet-21k (14M 图片) |
| Mixture of Experts (MoE) |
2017 |
稀疏门控 MoE 层,条件计算 |
单专家 ~100M × N 专家 |
多种翻译数据集 |
| 模型 |
年份 |
参数量 |
架构类型 |
预训练任务 |
关键能力 |
| GPT-1 |
2018 |
117M |
Decoder-only |
标准语言建模 |
生成式文本 |
| BERT |
2018 |
110M (Base) / 340M (Large) |
Encoder-only |
MLM + NSP |
双向上下文理解 |
| GPT-2 |
2019 |
1.5B |
Decoder-only |
语言建模(WebText) |
零样本迁移 |
| GPT-3 |
2020 |
175B |
Decoder-only |
语言建模(45TB 文本) |
少样本学习 |
| InstructGPT |
2022 |
175B |
Decoder-only |
SFT + RLHF |
指令遵循 |
| 方向 |
代表论文 |
年份 |
核心技术 |
效果数据 |
| 指令微调 |
FLAN (Instruction Tuning) |
2021 |
62 个 NLP 任务混合指令微调 |
平均提升 28.8% (0-shot), 11.7% (few-shot) |
| RLHF |
InstructGPT |
2022 |
PPO 算法 + 人类偏好(1.3K 标注) |
175B SFT 1.3K 标注 < 100B GPT-3 175B 无标注 |
| 思维链 |
Chain-of-Thought |
2022 |
逐步推理提示("Let's think step by step") |
GSM8K: 17.9% → 58.1% (PaLM 540B) |
| 模型 |
年份 |
架构 |
理论基础 |
关键数据 |
| DDPM |
2020 |
U-Net + 扩散 |
去噪扩散概率模型,正向/逆向 Markov 链 |
CIFAR-10 IS 9.46, FID 3.17 |
| DDIM |
2021 |
U-Net + 加速采样 |
非 Markov 逆过程,10-50 步采样 |
50 步媲美 1000 步质量 |
| Stable Diffusion |
2022 |
U-Net + Latent Diffusion + VAE |
在潜空间扩散,降低计算量 |
1024×1024 在单 GPU 运行 |
| DALL-E 2 |
2022 |
CLIP + Diffusion Prior + Decoder |
文本描述引导图像生成 |
256×256 → 1024×1024 超分 |
| 排名 |
论文 |
总引用(估) |
年均引用 |
主要影响领域 |
| 1 |
Attention Is All You Need |
160,000+ |
20,000+ |
NLP, CV, Audio, Multi-modal |
| 2 |
BERT |
100,000+ |
14,000+ |
NLP 预训练 |
| 3 |
GPT-3 |
50,000+ |
10,000+ |
LLM, Few-shot Learning |
| 4 |
DDPM |
40,000+ |
8,000+ |
图像/视频/音频生成 |
| 5 |
ViT |
30,000+ |
6,000+ |
计算机视觉 |
| 6 |
Chain-of-Thought |
15,000+ |
5,000+ |
LLM 推理 |
| 7 |
MoE (Shazeer et al.) |
10,000+ |
1,400+ |
稀疏模型 |
| 8 |
InstructGPT (RLHF) |
8,000+ |
2,700+ |
对齐技术 |
| 9 |
FLAN (Instruction Tuning) |
6,000+ |
1,500+ |
指令微调 |
| 论文 |
GPU 类型 |
GPU·小时 |
训练时间 |
估计费用 |
| Transformer (2017) |
P100 × 8 |
~84,000 |
3.5 天 |
~$50K |
| BERT (2018) |
TPUv2 × 16 |
~179,000 |
4 天 |
~$70K |
| GPT-3 (2020) |
V100 × 10,000 |
~3.14M GPU-days |
34 天 |
~$4.6M (≈460 万美元) |
| InstructGPT (2022) |
- |
SFT: ~0.3M, RLHF: ~2.4M |
- |
约 $1M+ |
| Stable Diffusion (2022) |
A100 × 256 |
150,000 |
23 天 |
~$600K |
以上费用为估算值,实际成本因硬件降价、云商折扣等因素可能有所差异。
2017: Attention Is All You Need (Transformer 架构)
│
├──→ 2018: GPT (单向 Decoder)
│ │
│ ├──→ 2019: GPT-2 (更大规模)
│ │ │
│ │ └──→ 2020: GPT-3 (175B, 少样本学习)
│ │ │
│ │ └──→ 2022: InstructGPT (SFT + RLHF)
│ │ │
│ │ └──→ 2022-2025: ChatGPT, Claude, Gemini 等
│ │
│ └──→ GPT 系列论文 (详细演进)
│
├──→ 2018: BERT (双向 Encoder)
│ │
│ ├──→ 2019: RoBERTa, ALBERT, DistilBERT
│ └──→ 2019: T5 (Encoder-Decoder 统一框架)
│
├──→ 2020: Vision Transformer (ViT)
│ │
│ └──→ 2021: DeiT, Swin Transformer, DETR
│
├──→ 2020: Diffusion (DDPM)
│ │
│ ├──→ 2021: DDIM (加速采样)
│ ├──→ 2022: Stable Diffusion, DALL-E 2
│ └──→ 2023: Sora (视频扩散), DALL-E 3
│
└──→ 2021: Instruction Tuning (FLAN)
│
└──→ 2022: Chain-of-Thought Prompting
│
└──→ 2023: Tree-of-Thought, Self-Consistency
2017: Mixture of Experts (MoE)
│
└──→ 2021: GShard, Switch Transformer
│
└──→ 2023: Mixtral 8x7B (开源 MoE LLM)
│
└──→ 2024: DeepSeek MoE, Qwen MoE
| 页面 |
核心内容 |
关键公式/数据 |
| Attention Is All You Need |
Transformer 架构详解、Self-Attention、Multi-Head Attention、Positional Encoding、完整代码实现 |
Attention(Q,K,V)=softmax(dkQKT)V |
| GPT 系列论文 |
GPT-1/2/3/4 演进、Scaling Law、训练数据 |
参数量 117M → 175B → 1.8T+(GPT-4 预估) |
| BERT |
预训练-微调范式、MLM/NSP 预训练 |
BERT Base: 110M 参数,在 11 项 NLP 任务 SOTA |
| Vision Transformer (ViT) |
ViT 架构、Patch Embedding、位置编码 |
ImageNet Top-1: 77.91% (ViT-B/16) vs ResNet-152: 78.57% |
| 页面 |
核心内容 |
关键数据 |
| Diffusion Models |
DDPM/DDIM/Stable Diffusion/DALL-E 原理、正向-逆向扩散过程推导 |
CIFAR-10: FID 3.17 (DDPM), FID 4.04 (DDIM 50 步) |
| Vision Transformer (ViT) |
ViT 在图像生成的扩散模型中作为 Backbone |
LDM-8: FID 7.3 (LSUN-Churches) |
| 页面 |
核心内容 |
关键实验数据 |
| Instruction Tuning |
FLAN 指令微调、任务格式统一、零样本迁移提升 |
62 个任务平均 28.8% 提升,最高 80%+(NLI 任务) |
| Chain-of-Thought |
思维链推理、激发 LLM 逐步推理能力 |
GSM8K: PaLM 540B 17.9% → 58.1%(CoT 提升 3.2 倍) |
| RLHF 论文 |
InstructGPT 训练流程:SFT → RM → PPO |
175B SFT < 100B GPT-3(人类评估 71% 偏好 SFT) |
| 论文/模型 |
参数 |
MMLU (5-shot) |
GSM8K (CoT) |
HumanEval Pass@1 |
HellaSwag |
| GPT-3 (2020) |
175B |
43.9% |
17.9% |
- |
78.9% |
| PaLM-540B (2022) |
540B |
69.3% |
58.1% |
26.2% |
84.0% |
| InstructGPT (RLHF 2022) |
175B |
- |
- |
- |
79.5% |
| FLAN-PaLM (2022) |
540B |
70.6% |
- |
- |
- |
| GPT-4 (2023, 预估) |
~1.8T |
86.4% |
92.0% |
67.0% |
95.3% |
基准数据来自各论文原文或 Open LLM Leaderboard。GPT-4 数据为公开报告的近似值。
| 模型 |
FID ↓ (CIFAR-10) |
FID ↓ (ImageNet 256×256) |
IS ↑ |
采样速度 |
| DDPM (Ho et al. 2020) |
3.17 |
- |
9.46 |
1000 步 |
| DDIM (Song et al. 2021) |
4.04 (50步) |
- |
- |
10-50 步 |
| Improved DDPM (2021) |
2.94 |
- |
- |
250 步 |
| LDM (2022, Stable Diffusion) |
- |
7.3 (256²) |
- |
10-50 步 |
| ADM (Dhariwal & Nichol 2021) |
2.07 |
4.59 |
- |
250 步 |
| DALL-E 2 (2022) |
- |
- |
- |
256→1024 超分 |
FID: Fréchet Inception Distance,越低表示生成分布越接近真实分布。
IS: Inception Score,越高表示生成质量越好且多样性越高。
- Transformer 入门 → Attention Is All You Need
- 预训练语言模型 → BERT + GPT 系列论文
- 指令微调 → Instruction Tuning
- 人类对齐 → RLHF 论文
- 推理增强 → Chain-of-Thought
- 稀疏模型 → Mixture of Experts (MoE)
- 图像生成 → Diffusion Models
- 视觉 Transformer → Vision Transformer (ViT)
- 深度理解 Transformer 每一层、每一组件的数学推导
- 理解 Scaling Law 背后的理论基础和涌现现象
- 对齐与安全:RLHF 在真实部署中的工程挑战
- 多模态融合:视觉 + 语言 + 音频的统一建模
| 术语 |
英文 |
定义 |
| 注意力机制 |
Attention |
计算输入序列中不同位置之间的相关性权重 |
| 自注意力 |
Self-Attention |
同一序列内部元素之间的注意力计算 |
| 多头注意力 |
Multi-Head Attention |
并行计算多组注意力,捕捉不同子空间特征 |
| 位置编码 |
Positional Encoding |
为序列中的每个位置添加位置信号 |
| 预训练 |
Pre-training |
在大规模无标注数据上训练模型 |
| 微调 |
Fine-tuning |
在预训练模型上用标注数据调整参数 |
| 零样本学习 |
Zero-shot |
不做微调/示例,直接推理 |
| 少样本学习 |
Few-shot |
提供少量示例(如 1-5 个)后推理 |
| 思维链 |
Chain-of-Thought |
引导模型展示逐步推理过程 |
| RLHF |
Reinforcement Learning from Human Feedback |
使用人类偏好训练奖励模型,再用强化学习优化语言模型 |
| MoE |
Mixture of Experts |
稀疏激活的专家混合架构 |
| 扩散模型 |
Diffusion Model |
通过逐步去噪从噪声生成数据 |
如果您希望从原始论文入手深入理解,建议按以下顺序阅读:
第 1 阶段:Transformer 基础
├── Attention Is All You Need (2017) — 必读,变更 AI 范式的论文
├── BERT: Pre-training of Deep Bidirectional Transformers (2018)
└── Improving Language Understanding by Generative Pre-Training (GPT, 2018)
第 2 阶段:语言模型扩展
├── Language Models are Unsupervised Multitask Learners (GPT-2, 2019)
├── Language Models are Few-Shot Learners (GPT-3, 2020)
└── Training Language Models to Follow Instructions (InstructGPT, 2022)
第 3 阶段:高级能力
├── Finetuned Language Models Are Zero-Shot Learners (FLAN, 2021)
├── Chain-of-Thought Prompting Elicits Reasoning (2022)
└── Scaling Instruction-Finetuned Language Models (Flan-T5/PaLM, 2022)
第 4 阶段:效率与扩展
├── Outrageously Large Neural Networks: MoE (2017)
├── Switch Transformers (2021)
└── Training Compute-Optimal Large Language Models (Chinchilla, 2022)
第 5 阶段:生成模型与多模态
├── Denoising Diffusion Probabilistic Models (DDPM, 2020)
├── An Image is Worth 16x16 Words (ViT, 2020)
├── Denoising Diffusion Implicit Models (DDIM, 2021)
└── High-Resolution Image Synthesis with Latent Diffusion Models (Stable Diffusion, 2022)
| 年代 |
论文 |
方法 |
核心数据集 |
主要指标 |
| 2014 |
Seq2Seq with Attention |
Encoder-Decoder + Bahdanau Attention |
WMT 2014 EN-DE |
BLEU: 28.45 |
| 2017 |
Transformer |
Full Self-Attention 架构 |
WMT 2014 EN-DE / EN-FR |
BLEU: 28.4 (EN-DE Base), 41.0 (EN-FR Big) |
| 2018 |
ELMo |
双向 LSTM 上下文嵌入 |
GLUE, SQuAD |
SQuAD F1: 85.8 (优于 BOW Baseline 73.4) |
| 2018 |
GPT |
单向 Decoder 预训练 |
BookCorpus |
Zero-shot 迁移 12/12 任务 |
| 2018 |
BERT |
MLM + NSP 双向预训练 |
GLUE, SQuAD 1.1/2.0 |
GLUE 80.5 (史上首个超人类 80.4) |
| 2019 |
XLNet |
排列语言建模 |
18 个任务 |
GLUE 88.4, RACE 83.0 (大幅超越 BERT) |
| 2019 |
RoBERTa |
BERT + 更大数据/更长训练 |
GLUE, SQuAD, RACE |
GLUE 88.5 |
| 2019 |
ALBERT |
参数共享 + 分解嵌入 |
GLUE, RACE, SQuAD |
RACE 89.4 (SOTA) |
| 2019 |
DistilBERT |
知识蒸馏 BERT(40% 参数) |
GLUE |
保留 97% 性能,提速 60% |
| 2020 |
T5 |
Encoder-Decoder 统一框架 |
GLUE, SuperGLUE |
GLUE 89.7 (T5-11B) |
| 2020 |
GPT-3 |
175B 参数少样本学习 |
42 个任务 |
少样本超越 SOTA(基于微调的同期模型) |
| 年代 |
论文 |
方法 |
核心数据集 |
主要指标 |
| 2012 |
AlexNet |
深度 CNN(8 层) + ReLU + Dropout |
ImageNet |
Top-5 错误率: 15.3% (相对第二名的 26.2%) |
| 2014 |
VGGNet |
很深 CNN(16-19 层) |
ImageNet, COCO |
Top-5 错误率: 7.3% |
| 2014 |
GoogLeNet (Inception v1) |
22 层 + Inception Module |
ImageNet |
Top-5 错误率: 6.67% |
| 2015 |
ResNet |
残差连接(152 层) |
ImageNet, COCO |
Top-5 错误率: 3.57% (超人类) |
| 2017 |
Mask R-CNN |
实例分割 |
COCO |
COCO mAP: 37.1 (Instance), 39.8 (Bbox) |
| 2020 |
ViT |
纯 Transformer 架构 |
ImageNet, ImageNet-21k |
ImageNet Top-1: 88.55% (ViT-H/14 JFT-300M) |
| 2021 |
Swin Transformer |
层次化 Transformer + 移动窗口 |
ImageNet, ADE20K, COCO |
ImageNet Top-1: 87.3% (Swin-L) |
| 2021 |
DeiT |
数据高效 Transformer + 蒸馏 |
ImageNet-1K |
ImageNet Top-1: 85.2% (DeiT-B, 无外部数据) |
| 2022 |
MAE |
掩码自编码器 + ViT |
ImageNet-1K |
ImageNet Top-1: 87.8% (ViT-H MAE) |
| 年代 |
论文 |
方法 |
关键数据集 |
FID (CIFAR-10) |
| 2014 |
GAN (Goodfellow) |
对抗训练生成器+判别器 |
MNIST, CIFAR-10, TFD |
(未使用 FID 指标) |
| 2017 |
WGAN |
Wasserstein 距离 + 权重裁剪 |
LSUN-Bedroom, CIFAR-10 |
改善训练稳定性 |
| 2020 |
DDPM |
去噪扩散概率模型 |
CIFAR-10, LSUN |
3.17 |
| 2021 |
Improved DDPM |
学习方差 + cos 调度 |
CIFAR-10 |
2.94 |
| 2021 |
DDIM |
非 Markov 加速采样 |
CIFAR-10, LSUN |
4.04 (50 步) |
| 2021 |
ADM |
分类器指导扩散 |
ImageNet |
4.59 (256×256) |
| 2022 |
LDM (Stable Diffusion) |
潜空间扩散 |
LAION-5B |
7.3 (256×256) |
注:不同论文使用的评估数据集和图像分辨率不同,FID 值仅在同数据集同分辨率下可比。
| 论文 |
官方实现 |
流行社区实现 |
复现框架 |
| Transformer |
tensor2tensor |
HuggingFace Transformers, fairseq |
PyTorch, JAX |
| BERT |
bert |
Transformers, BERT-pytorch |
PyTorch, TF |
| GPT-3 |
- |
GPT-NeoX, GPT-J |
JAX, PyTorch |
| DDPM |
openai/improved-diffusion |
diffusers, guided-diffusion |
PyTorch |
| ViT |
google-research/vision_transformer |
timm, HuggingFace |
JAX, PyTorch |
| MoE |
- |
fairscale, megablocks |
PyTorch, JAX |
Q: 我应该先读哪篇论文?
A: 从 Attention Is All You Need 开始。它是整个现代 AI 的基石,理解 Transformer 才能理解后续所有论文。
Q: 这些论文需要数学基础吗?
A: 需要基本的线性代数(矩阵乘法、向量点积)、概率论和微积分。各论文的知识页中都提供了必要的数学推导和直观解释。
Q: 有没有不需要读原文就能理解的资料?
A: 每个论文页面都提供了完整的中文解读,包括架构图解、公式推导、实验数据和代码示例。如果时间有限,浏览论文页面比通读原文效率更高。
Q: 如何紧跟最新论文?
A: 推荐同时关注 ArXiv Sanity、Hugging Face Daily Papers 和 Twitter/X 上的 AI 社区讨论(包括 @_akhaliq @ylecun @kynkaann @lilianweng 等)。
本文档持续更新,欢迎通过 GitHub Issues 提交建议或补充遗漏的重要论文。