OpenAI 的 GPT(Generative Pre-trained Transformer)系列论文定义了现代大语言模型(LLM)的发展轨迹。从 2018 年的 GPT-1 到 2025 年的推理模型,每一代 GPT 都在规模、能力和方法论上实现了质的飞跃。本文系统梳理 GPT 系列核心论文的技术演进、关键创新和工程实践。
GPT 系列代表了自然语言处理领域从"为每个任务训练专用模型"到"一个通用模型解决所有任务"的 paradigm shift。其核心思想是:在大规模无标注数据上进行语言建模预训练,然后通过少量监督数据或自然语言指令适配下游任务。
- 标题:Improving Language Understanding by Generative Pre-Training
- 作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever
- 发布时间:2018 年 6 月
- 机构:OpenAI
在 GPT-1 之前,NLP 任务主要依赖监督学习,需要大量人工标注数据。半监督方法虽然存在(如 word2vec 词向量预训练),但只在词层面提供表征,无法捕获句子级的语义信息。GPT-1 的愿景是:用无监督预训练学习通用语言表征,然后用少量标注数据适配具体任务。
GPT-1 采用单向 Transformer 解码器架构(从左到右的自回归语言模型):
- 12 层 Transformer 解码器堆叠
- 768 维隐层表示
- 12 个注意力头
- 前馈网络隐层维度 3072
- 总参数量:117M
- 上下文窗口:512 tokens
与原始 Transformer 编码器-解码器结构不同,GPT-1 仅使用解码器部分,通过 masked self-attention 确保每个 token 只能关注其左侧的 token。训练目标是标准的自回归语言建模:
Lunsupervised=−i∑logP(xi∣xi−1,…,x1;Θ)
GPT-1 的训练数据主要来自 BooksCorpus(约 7000 本未出版书籍),选择书籍数据的原因是它们包含长距离依赖的连续文本,比词级别或句子级别的拆分更有利。
GPT-1 最关键的贡献之一是提出了任务适配的微调框架。对于分类任务,在输入序列末尾添加 [Extract] token,将其最后的隐层表示通过线性分类层进行预测:
P(y∣x1,…,xm)=softmax(hlm⋅Wy)
微调损失结合了语言建模目标和分类目标:
L3(C)=L2(C)+λ⋅L1(C)
GPT-1 在 12 个 NLP 基准任务中的 9 个取得了 SOTA,包括:
- Natural Language Inference (RTE):5.7% 相对提升
- Question Answering (RACE):5.7% 相对提升
- Story Cloze Test:8.1% 相对提升
- 文本分类、语义相似度等任务均有显著提升
- 单向注意力限制了双向上下文的理解能力
- 训练数据规模有限(仅 BooksCorpus)
- 微调仍需少量标注数据
- 架构规模较小(117M),表达能力受限
- 标题:Language Models are Unsupervised Multitask Learners
- 作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever
- 发布时间:2019 年 2 月
- 机构:OpenAI
GPT-2 的核心问题是:一个足够大的自回归语言模型,能否在零样本(zero-shot)设置下学会执行各种 NLP 任务? 其核心假设是,如果语言模型在足够多领域的数据上进行训练,它自然能够捕获多种任务的条件分布。
GPT-2 延续了 GPT-1 的 Transformer 解码器架构,但进行了以下改进:
- 参数从 117M 扩展到 1.5B
- 层归一化移至每个子块的开头(pre-norm)
- 在最后一个自注意力层后额外增加层归一化
- 使用 Byte-Pair Encoding (BPE) 作为分词方法,词汇表大小 50,257
- 扩展上下文窗口到 1024 tokens
- 更大的 Batch Size(512)
GPT-2 最重要的创新之一是构建了高质量的大规模训练数据集 WebText:
- 爬取 Reddit 上获赞 ≥3 的链接对应的网页内容
- 经过严格去重和噪声过滤
- 最终约 800 万文档,40GB 文本
- 这一数据质量和规模远超过之前的 NLP 数据集
GPT-2 的核心发现是:在自回归语言模型的训练中,模型自然而然地学会了对多种任务的隐式理解:
- 机器翻译:在零样本设置下,在 WMT-14 英法翻译任务上达到 11.5 BLEU
- 问答:在 CoQA 数据集上达到 55 F1 分数,虽未 SOTA 但证明零样本问答可行
- 阅读理解:在 LAMBADA 数据集上将困惑度从 99.8 降至 8.6
- 文本摘要:生成 6-sentence 摘要的能力
- 新闻生成:可控的文本生成,其质量使得 OpenAI 最初选择不完整发布模型
GPT-2 展示了第一个涌现能力(emergent ability):当参数量从 117M 增长到 1.5B 时,一些任务表现突然显著提升,而非线性增长。这是 Scaling Law 现象的早期证据。
GPT-2 引发的最大争议是 OpenAI 最初选择不完整发布(只发布小版本模型,不发布 1.5B 完整模型),理由是模型可能被滥用生成虚假新闻。这一决定引发了 AI 社区对开源 vs 负责任的 AI 模型发布的广泛讨论。
- 标题:Language Models are Few-Shot Learners
- 作者:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al.
- 发布时间:2020 年 5 月
- 机构:OpenAI
- 引用:25000+(截至 2026 年)
GPT-3 开启了 上下文学习(In-Context Learning, ICL) 范式:
- 少样本学习(Few-Shot):在提示中提供 k 个示例,模型生成正确输出
- 单样本学习(One-Shot):仅 1 个示例即可执行任务
- 零样本学习(Zero-Shot):仅通过自然语言指令完成任务
这些能力在 GPT-2 中即使有提示也存在,但在 GPT-3 规模下实现了质的飞跃。
GPT-3 训练了从 125M 到 175B 参数的 8 个模型版本:
| 模型名 |
参数量 |
层数 |
隐层维度 |
注意力头 |
学习率 |
| GPT-3 Small |
125M |
12 |
768 |
12 |
6e-4 |
| GPT-3 Medium |
350M |
24 |
1024 |
16 |
3e-4 |
| GPT-3 Large |
760M |
24 |
1536 |
16 |
2.5e-4 |
| GPT-3 XL |
1.3B |
24 |
2048 |
24 |
2e-4 |
| GPT-3 2.7B |
2.7B |
32 |
2560 |
32 |
1.6e-4 |
| GPT-3 6.7B |
6.7B |
32 |
4096 |
32 |
1.2e-4 |
| GPT-3 13B |
13B |
40 |
5140 |
40 |
1e-4 |
| GPT-3 175B |
175B |
96 |
12288 |
96 |
0.6e-4 |
架构复用 GPT-2 的设计,主要差异在于:
- 上下文窗口:2048 tokens
- 交替使用密集注意力(dense attention)和局部带状稀疏注意力(locally banded sparse attention)以减少计算量
- 使用 AdamW 优化器 + 余弦学习率衰减
- 将 Batch Size 从 0.5M 线性增加到 3.2M tokens
GPT-3 的训练数据规模达到 570GB,来源包括:
- Common Crawl(过滤后):410B tokens
- WebText2:19B tokens
- Books1:12B tokens
- Books2:55B tokens
- Wikipedia:3B tokens
总计约 499B tokens。
数据处理的关键:
- 使用 fuzzy deduplication 去除训练集中的重复数据
- 使用逻辑回归分类器过滤低质量 Common Crawl 页面
- 使用 LR 分类器而非基于规则的过滤
上下文学习的本质是隐式的元学习(meta-learning)。在训练过程中,模型在不同任务之间学习,因此在推理时能看到一个模式(示例及其输出),然后隐式地在隐空间中推断该任务的底层分布。
关键发现:上下文学习的信息流路径不同于传统的梯度微调。研究发现,ICL 中模型主要通过在前面的 token 和最后的 token 之间通过注意力机制传递信息,而非通过权重更新。
GPT-3 论文的一个重要副产品是对 Scaling Law(Kaplan et al., 2020)的实证验证。Scaling Law 指出,模型性能与三个因素呈幂律关系:
幂律关系形式:
L(N,D)=NαA+DβB+L0
其中:
- L 是交叉熵损失
- N 是参数量
- D 是训练 token 数
- L0 是不可减少的熵(数据本身的熵下限)
两个关键结论:
- 计算是稀缺资源:对于给定计算预算,最优分配是在模型参数和数据规模之间平衡,不宜过分偏重一方
- 大模型更节省计算:更多参数的模型在达到相同损失时需要的总计算量更少
GPT-3 在二十多个 NLP 基准上取得了优异的少样本学习结果:
- TriviaQA:71.2% F1(zero-shot),在开放域问答任务上接近专家的 83.1%
- LAMBADA:零样本准确率 76%(GPT-2 专业版为 55.1%)
- SuperGLUE:在 few-shot 设置下超越微调的 BERT Large
- 新闻文章生成:人类评估者难以区分 GPT-3 生成的新闻和人类写的新闻文章
但是,GPT-3 在以下任务上表现不佳:
- 自然语言推理(NLI):随机水平
- 阅读理解(RACE-h):仅 40%(人类约 95%)
- 二元真值判断(ANLI):近随机
- 混合语言的生成:英语产生大量非英语 token(浪费计算)
- 重复生成:倾向于重复同一短语或模式
- 事实幻觉:生成表面上合理但事实上不正确的陈述
- 社会偏见:从训练数据中继承了性别、种族等偏见
- 数据污染:测试集数据可能出现在训练数据中
- 推理不足:简单算术推理可能失败(如 9+10=19 会算对,但复杂加法会出错)
- 标题:Training language models to follow instructions with human feedback
- 作者:Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, et al.
- 发布时间:2022 年 1 月
- 机构:OpenAI
GPT-3 虽然强大,但往往不遵循用户意图:它会生成无用的、有毒的、或编造的事实。核心问题是 GPT-3 的语言建模训练目标("预测下一个 token")不等于 "有用且安全地执行用户指令"。
InstructGPT 和随后的 ChatGPT 的核心创新是 RLHF(Reinforcement Learning from Human Feedback),分为三个阶段:
- 雇佣约 40 名标注员,根据用户输入的 prompt 写出理想输出
- 对 GPT-3 进行监督微调,训练约 1-2 个 epoch
- 生成约 13K SFT 训练样本
- 对同一个 prompt 让 SFT 模型生成 K 个回答(通常 K=4 到 9)
- 标注员对这些回答排序(从好到坏)
- 训练一个奖励模型 Rθ(x,y) 来预测人类偏好评分的预期值
- 奖励模型使用 33K 标注数据训练
损失函数(基于 Bradley-Terry 模型):
L(θ)=−(2K)1E(x,yw,yl)∼D[logσ(Rθ(x,yw)−Rθ(x,yl))]
其中 yw 是更偏好的回答,yl 是较差的回答。
使用 PPO(Proximal Policy Optimization)算法,以奖励模型为奖励信号,优化 SFT 策略 πϕRL:
R(x,y)=Rθ(x,y)−β⋅KL(πϕ(y∣x)∥πSFT(y∣x))
KL 散度项防止 RL 模型偏离 SFT 初始化太远(保持语言能力)。
总优化目标:
objective(ϕ)=Ex∼Dprompt,y∼πϕ(y∣x)[Rθ(x,y)]−β⋅KL(πϕ∥πSFT)
- 1.3B 参数量 + RLHF > 175B 参数量 GPT-3 无 RLHF:参数量少两个数量级的模型在遵循用户意图上显著更好
- RLHF 改善了真实性:标注员评分显示 RLHF 模型更少编造事实
- RLHF 减少了有害输出(但不够完美)
- RLHF 在公开 NLP 基准上略有下降:微小的性能代价换来了大幅提升的可用性
ChatGPT(2022 年 11 月发布)在 InstructGPT 的基础上增加了:
- 对话格式:多轮对话建模,引入角色区分(系统、用户、助手)
- 安全训练:在对话层面对安全意识进行强化
- 拒绝不当请求:学会礼貌拒绝有害内容
- 拒绝速度优化:比 GPT-3 快 10 倍以上
ChatGPT 在发布后两个月内达到 1 亿月活用户,成为历史上增长最快的应用。
- 多模态输入:支持文本和图像输入(输出仍仅为文本)
- 82% 的基准优于人类水平
- 在多个专业资格考试中达到人类水平
- 支持长上下文(32K tokens)
- 引入 "Predictable Scaling" 概念
OpenAI 未披露 GPT-4 的具体架构参数,但基于外部分析和推理,推测包括:
- MoE(Mixture of Experts)架构:由 8 个专家模型组成,每个 ~220B,总计 ~1.8T 参数
- 推理成本约为 GPT-3 的 2-3 倍
- 训练使用约 13T tokens 数据
- 使用微软 Azure 超级计算机集群训练
GPT-4 报告中最引人注目的是 predictable scaling 概念:
- 使用计算量小 1,000x 的小模型成功预测了大模型在 HumanEval 上的 pass rate
- 建立了从 10M 到 1.8T 参数的 性能预测曲线
- 这对资源规划和训练策略有重要指导意义
核心公式:
PassRate(C)=1+αCβαCβ
其中 C 是计算预算,α 和 β 是从小模型外推得到的参数。
GPT-4 展示了强大的多模态能力:
- 图表理解:解析复杂的科学图表和可视化
- 手写识别:识别手写文字(即使在模糊不清的图像上)
- 截图交互:理解用户界面截图并给出操作建议
- 图像描述:对复杂场景进行详细描述
GPT-4 在安全方面投入了大量工作:
- Safety Reward Signal:在 RLHF 训练中增加独立的安全奖励信号
- 安全规则级训练:基于使用政策训练模型拒绝不安全请求
- 外部第三方审计:在部署前进行广泛的红队测试
- "RBRM"(基于规则的奖励模型):通过预定义规则为安全行为提供奖励
- Copilot 升级:GPT-4 驱动 Microsoft 365 Copilot,改变了办公软件的使用方式
- API 生态:数百万开发者通过 API 使用 GPT-4
- 企业级应用:从客服到数据分析的全面 AI 集成
- 教育评估:在 LSAT、GRE、SAT、AP 考试中取得高分
GPT-4o("omni",全模式)于 2024 年 5 月发布,是 OpenAI 首个原生多模态模型——所有模态(文本、图像、音频)在同一个神经网络中处理,而非串联多个单模态模型。
- 统一架构:文本、图像、音频在一个模型中端到端训练
- 实时语音:音频输入 → 模型直接处理 → 音频输出(端到端延迟 ~320ms)
- 声音情感理解:可以理解语音中的情感和语调
- 图像理解增强:显著提升图像识别和视觉推理能力
- 写作文本自动修复:阅读用户屏幕内容并实时对话式协助
- 语音交互延迟:平均从 GPT-4 的 5.4 秒降至 320ms
- 成本降低:API 价格为 GPT-4 的 50%
- 速度提升 2x:更快推理速度
- 多语言支持:50+ 语言,零翻译即可理解
- 实时翻译:跨语言对话的无缝转换
- 语音助手:替代传统 IVR 系统,提供自然对话体验
- 视觉辅助:盲人用户的图像描述和导航辅助
- 教育工具:实时答题、语音互动学习
2024 年 9 月发布的 o1 是首个推理模型,具备"思考后再回答"的能力。
核心创新:
- 思维链(Chain-of-Thought)隐式扩展:模型在回答前内部生成推理链条,但外部只输出最终答案
- 安全行为改进:将安全规则融入推理过程,而非仅在输出层过滤
- 竞赛级数学:2024 IMO 考试达到金牌水平(213 分/252 总分满分)
- 科学推理:在物理、化学、生物问题上显著超越 GPT-4
- 编程竞赛:Codeforces 排名前 10%
2025 年初发布的 o3 和 o4-mini 进一步扩展了推理能力:
- 视觉推理:理解和推理图像中的复杂关系
- 工具使用:在推理过程中动态调用搜索、计算工具
- 编程增强:显著提升代码生成和调试能力
- 开源系统卡:OpenAI 发布了详细的系统卡(System Card),透明度更高
安全评估:
- 通过 Preparedness Framework 进行全面的风险测试
- 对生物风险、网络安全的审查增加到最高级别
- 在训练数据中过滤可能造成 CBRN 传播风险的敏感内容
GPT-5(2025 年发布)代表了 GPT 系列的又一重大飞跃:
- 推测架构:大规模 MoE(专家混合),高效路由
- 真正多模态:文本、图像、音频、视频、代码
- 超过 200K tokens 的上下文窗口
- 人机协作:提供建议并自主执行复杂工作流
- 企业自动化:可处理复杂的多方业务流程
- 100+ 语言支持,大多数语言达到英语水平
- 推理能力:接近人类水平的深度推理
- 多模态理解:统一处理所有输入模态
- 长期记忆:持久记忆和跨会话上下文管理
- 持续学习:通过使用和反馈持续改进
GPT-5 的 API 生态也进行了扩展:
- Agents SDK:用于构建自主 Agent 的官方框架
- Realtime API:实时语音和文本传输
- External Models:支持接入外部模型
- Computer Use:模型可以直接操控计算机界面
- 已发布到 GPT-5.5(2026 年初最新版本)
这一论文(发表于 2020 年 1 月,早于 GPT-3)系统阐述了 Transformer LM 的扩展规律:
幂律关系:
L(N,D)≈(NNc)αN+(DDc)αD+L∞
三个定律:
- 参数扩展律:损失随参数量呈幂律下降,αN≈0.076
- 数据扩展律:损失随数据量呈幂律下降,αD≈0.095
- 计算最优扩展:对于固定计算预算,参数和数据应同时按比例扩展
DeepMind 在 2022 年修正了 Kaplan 的结论,提出了 Chinchilla Scaling Law:
- 计算最优比例:参数每增加 1 倍,训练数据也需增加 1 倍
- 据此训练的 70B 参数 Chinchilla 模型在大多基准上优于更大的 280B Gopher
- GPT-3 是过度参数化且训练不足的(约 4x 欠训练)
公式:
Copt∝N1.0⋅D1.0 (Chinchilla)
而 Kaplan 的结论是:
Copt∝N0.73⋅D0.27 (Kaplan)
涌现能力(Emergent Abilities, Wei et al., 2022)指在某个规模阈值上突然出现的、小模型中不可见的能力:
- 算术推理:GPT-3(175B)之前几乎不可见
- 多步推理:需要足够大的模型才能表现稳定
- 上下文学习:在某个参数规模阈值之上突然显著提升
- 指令遵循:与 RLHF 结合后涌现
争议:部分研究认为涌现能力可能只是评估指标的离散化和样本量变化导致的人为现象,而非真正的能力飞跃。
Transformer 自回归生成时,每个 token 需要计算与之前所有 token 的注意力。使用 KV Cache 可避免重复计算:
- 存储已计算 Key 和 Value 矩阵
- 每一步只计算新 token 的 Query、Key、Value
- 推理速度提升约 3-5x
- 内存开销随上下文长度线性增长
通过预测多个候选 token 同时验证,实现 2-3x 加速:
- 小模型快速生成候选序列
- 大模型并行验证
- 保持大模型的生成质量不变
- 使用 FP16 或 BF16 存储中间激活和梯度
- 主权重和优化器状态保持 FP32
- 减少显存消耗约 2x
- 训练速度提升约 2-3x
在大规模训练中(>10B 参数),需要三级并行:
- 数据并行(Data Parallelism):各 GPU 处理不同 Batch 数据
- 张量并行(Tensor Parallelism):同一 Transformer 层切分到不同 GPU
- 流水线并行(Pipeline Parallelism):不同层在不同 GPU 设备上执行
| 维度 |
GPT-3 (175B) |
GPT-4 (~1.8T MoE) |
建议 |
| 推理显存 |
350GB+ |
多卡 > 1TB |
需要多 GPU 推理部署 |
| 单次推理延迟 |
~1s |
~2-3s |
使用 KV Cache + vLLM |
| 批处理吞吐 |
~50 req/s |
~20 req/s |
批量请求提升吞吐 |
| 成本 |
$0.02/1K tokens $0.03-0.06/1K tokens |
选择合适模型降本 |
|
在实际项目中使用 GPT 系列模型的几点经验:
-
Prompt Engineering 是关键杠杆:GPT-3 时代 promt 设计决定了 90% 的生成质量。到了 GPT-4/4o 时代,这一比例降低但仍然是工程中不可忽视的部分。好的系统提示(system prompt)比反复调整 API 参数更有效。
-
从"粗调"到"细选":在 2023-2024 年的项目中,从使用 GPT-3.5-turbo 做通用文本生成,逐步过渡到针对不同任务选择不同模型——GPT-4 用于复杂推理、GPT-4o-mini 用于高吞吐的简单任务。这种混合策略在成本和效果之间取得了更好的平衡。
-
RLHF 的实际效果:InstructGPT(text-davinci-003)到 GPT-3.5-turbo 的升级体验非常显著——指令遵循能力提升了质变。这也是推荐在实际应用中优先选择对齐后的模型(chat-tuned 版本)而非 base 模型的原因。
-
关于多模态的取舍:GPT-4o 的图像理解能力虽强,但在实际业务中需要权衡速度和成本。对于仅需要 OCR 或简单图像分类的场景,专用模型(如 PaddleOCR、ResNet)在成本和延迟上更具优势。
Scaling Law 不仅是一个理论发现,在实际工程中也有重要指导意义:
- 判断扩展方向:当项目需要更好性能时,是增加数据、增加参数还是增加计算?Scaling Law 给出了定量的判断依据
- 资源规划:预测从当前模型扩展到更大规模所需的计算资源(GPU 数量、训练时间)
- 成本评估:不同规模模型的训练和推理成本估算
GPT 系列的开源替代方案值得关注:
| GPT 模型 |
开源对标 |
差距分析 |
| GPT-1 (117M) |
DistilBERT, TinyBERT |
已全面超越 |
| GPT-2 (1.5B) |
GPT-Neo 1.3B, BLOOM 1.7B |
质量接近 |
| GPT-3 (175B) |
LLaMA 65B, Falcon 180B |
LLaMA-3 接近甚至部分超越 |
| InstructGPT |
LLaMA-2-Chat, Alpaca |
指令遵循已有替代方案 |
| GPT-4 |
LLaMA-3-70B, DeepSeek-V3 |
开源正在快速缩小差距 |
| GPT-4o |
Qwen-VL, GLM-4V |
多模态差距仍显著 |
- 预训练-微调范式成为主流:GPT-1 的范式被几乎所有后续 LLM 采用(BERT、T5、LLaMA、Qwen 等)
- 规模扩展竞赛:GPT-3 开创了大模型时代,开启了"更大=更强"的军备竞赛
- 对齐研究的兴起:InstructGPT 催生了整个 AI 对齐领域,RLHF 成为标准工具
- API 经济:GPT-3 API 开启了"模型即服务"的商业模式
- 推理模型的诞生:o1 系列开创了推理模型的路线,改变了单纯扩大参数量的方向
- 就业结构变化:AI 辅助写作、编程、设计等岗位发生根本性变化
- 教育方式变革:从死记硬背转向培养批判性思维和 AI 协作能力
- 信息生态风险:生成式 AI 导致虚假信息泛滥风险显著增加
- 数字鸿沟:AI 能力的不平等获取可能加剧社会不平等
GPT 系列深刻改变了 NLP 和 AI 的研究方向:
- 从 "任务专用模型" → "通用基础模型"
- 从 "监督学习" → "自监督预训练 + 对齐"
- 从 "人工特征设计" → "数据质量和规模"
- 从 "精度优化" → "推理能力提升"
- 安全对齐从 "事后补丁" → "内置设计"
- GPT-1:Radford, A., Narasimhan, K., Salimans, T., Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI.
- GPT-2:Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
- GPT-3:Brown, T., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020. arXiv:2005.14165
- Scaling Law:Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361
- InstructGPT:Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022. arXiv:2203.02155
- Chinchilla:Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models. NeurIPS 2022. arXiv:2203.15556
- Emergent Abilities:Wei, J., et al. (2022). Emergent Abilities of Large Language Models. TMLR 2022. arXiv:2206.07682
- GPT-4:OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774
- GPT-4o:OpenAI. (2024). Hello GPT-4o. Blog
- o1:OpenAI. (2024). Learning to Reason with LLMs. Blog
- o3 / o4-mini:OpenAI. (2025). o3 and o4-mini System Card. PDF
- RLHF:Christiano, P., et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS 2017. arXiv:1706.03741
- PPO:Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347
此页面为 AI 知识体系 的一部分,内容持续更新中。相关阅读:Transformer 架构详解、Attention 机制演进、RLHF 与人类反馈强化学习、模型微调技术、Prompt Engineering。