OpenAI GPT 系列模型全景:从 GPT-1 到 GPT-5.5 的技术演进、架构设计、训练方法、能力对比与工程实践。涵盖整个 GPT 谱系——GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4、GPT-4o、GPT-4.1、o 系列推理模型、GPT-5 及 GPT-5.5。
GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)系列是 OpenAI 开发的大语言模型(LLM)家族,是当前生成式 AI 领域最具影响力的技术路线之一。自 2018 年 GPT-1 以 1.17 亿参数的实验规模问世以来,GPT 系列在七年间完成了十余次重大迭代,参数规模扩展至万亿级,能力从基础文本生成拓展到多模态理解、深度推理、代码生成和自主 Agent,驱动了 ChatGPT 等全球数亿用户使用的 AI 产品。
GPT 的技术路线选择——Decoder-Only Transformer + 自回归预训练 + 强化学习对齐——已成为整个行业的事实标准,深刻影响了 Claude、Gemini、Llama、DeepSeek 等竞品模型的设计方向。
GPT 系列采用 Decoder-Only Transformer 架构,仅使用原始 Transformer(Vaswani et al., 2017)的 Decoder 部分,舍弃了 Encoder。与 Encoder-Decoder 架构(如 T5)或 Encoder-Only 架构(如 BERT)不同,GPT 将编码和解码合并为单一 Decoder 堆栈。这一选择的核心考量是:生成式任务需要从左到右逐 token 生成,而 Decoder 的因果注意力天然支持这一模式。
每个 Decoder 层包含两个核心子模块:
每个子模块外都包裹 Layer Normalization + Residual Connection。架构演进中一个关键的细节改进是 Normalization 的位置:
因果自注意力的核心计算如下。给定输入序列 ,首先通过线性投影得到 Q、K、V:
其中 ,。注意力计算为:
其中 是因果掩码矩阵,元素 定义如下:
为缩放因子,防止内积过大导致 softmax 梯度消失。
多头注意力并行计算 个注意力头,拼接后投影回 维:
GPT-3 每层使用 个注意力头,每个头 ,总隐藏维度 。
GPT 的训练目标为自回归语言建模:最大化给定前文条件下预测下一个 token 的概率。序列概率的链式分解为:
训练时使用标准交叉熵损失:对每个位置 ,计算模型预测分布与真实 token 之间的交叉熵。
推理时采用自回归生成:模型每次只生成一个 token,将其追加到输入序列末尾,再预测下一个。这解释了为什么 ChatGPT 生成回答时逐字出现——模型不是在"思考"整个回复后输出,而是一边生成一边依赖已生成的内容。
模型输出的是一个概率分布 ,如何从中选择具体 token 直接影响生成质量:
实际生产中(ChatGPT 等产品),通常组合使用:Top-p 采样为主,配合温度控制多样性。
论文:Improving Language Understanding by Generative Pre-Training
| 维度 | 参数值 |
|---|---|
| 发布 | 2018 年 6 月 11 日 |
| 参数量 | 1.17 亿(117M) |
| Transformer 层数 | 12 |
| 隐藏维度 | 768 |
| 注意力头数 | 12(每层) |
| 上下文窗口 | 512 tokens |
| 训练数据 | BookCorpus(约 7,000 本未出版书籍,~1B tokens) |
| 损失函数 | 交叉熵 + 辅助语言建模损失 |
| 优化器 | Adam() |
| 学习率调度 | 余弦退火 + warmup |
| 微调 | 各任务附加线性分类层 |
核心创新:GPT-1 首次系统性地证明了两阶段范式的有效性:先在无标签大规模文本上做语言建模预训练(第一阶段),再在特定下游任务上做有监督微调(第二阶段)。这在当时 NLP 领域以 Bi-LSTM + ELMo 和早期 BERT 为背景的时代具有开创性意义。
技术细节:GPT-1 使用了标准的 12 层 Decoder-Only Transformer,采用 Post-normalization。输入流程为:tokenization(基于 BPE,字节对编码)→ token embedding → 位置编码(学习的绝对位置编码)→ 12 层 Decoder → 输出投影到词汇表大小。
局限性:参数量级较小(117M),上下文窗口短(512),且需要为每个下游任务设计专门的输出头并做微调,无法零样本迁移。
论文:Language Models are Unsupervised Multitask Learners
| 维度 | 参数值 |
|---|---|
| 发布 | 2019 年 2 月 14 日 |
| 参数量 | 15 亿(1.5B,最大版本) |
| 层数 | 48 |
| 隐藏维度 | 1,600 |
| 注意力头数 | 25(每层) |
| 上下文窗口 | 1,024 tokens |
| 训练数据 | WebText(约 800 万网页,40GB 纯文本) |
| 词汇表大小 | 50,257(BPE) |
| 归一化方式 | Pre-normalization(关键改进) |
关键创新:
争议事件:GPT-2 因其强大的文本生成能力引发了广泛的滥用担忧。OpenAI 最初仅发布了 124M 的最小版本,并发布了一份关于"恶意使用风险"的报告。经过数月的安全评估和社区征求意见,才逐步公开更大规模的模型。这一"分阶段发布"策略引发了 AI 社区关于"负责任发布"与"开源透明"之间权衡的长期辩论。
实际表现:GPT-2 1.5B 在零样本设置下,在 LAMBADA(文本理解)、WMT-14 翻译(法英翻译)、CNN/Daily Mail(摘要)等基准测试中达到了当时最优或接近最优的性能,证明了语言模型作为多任务学习器的潜力。
论文:Language Models are Few-Shot Learners
| 维度 | 参数值 |
|---|---|
| 发布 | 2020 年 6 月 11 日 |
| 参数量 | 1,750 亿(175B) |
| 层数 | 96 |
| 隐藏维度 | 12,288 |
| 注意力头数 | 96(每层) |
| 前馈网络 | 两层隐藏维度 49,152(4× 放大因子) |
| 上下文窗口 | 2,048 tokens |
| 词汇表 | 50,257(BPE,与 GPT-2 一致) |
| 训练数据 | Common Crawl + WebText2 + Books1/2 + Wikipedia(约 300B tokens 未去重,570GB) |
| 训练成本 | 约 460 万美元(3.14E23 FLOPS) |
| GPU | 约 10,000 块 V100 GPU |
| 训练耗时 | 约 34 天连续训练 |
| 批大小(batch size) | 3.2M tokens |
| 最大学习率 | |
| 权重衰减 | 0.1 |
| 梯度裁剪 | 1.0 |
四个规模的 GPT-3 变体:
| 模型名 | 参数量 | 层数 | 隐藏维度 | 注意力头数 |
|---|---|---|---|---|
| Ada | 350M | 12 | 768 | 12 |
| Babbage | 1.3B | 24 | 2,048 | 16 |
| Curie | 6.7B | 32 | 4,096 | 32 |
| Davinci | 175B | 96 | 12,288 | 96 |
核心创新:
实际影响:GPT-3 是真正让 AI 社区意识到"规模就是能力"的转折点。它展示了传统 NLP 范式中"为每个任务训练专用模型"的路线已过时,通用语言模型通过 prompt 即可适配海量任务。OpenAI 基于 GPT-3 推出了付费 API(2020 年 6 月起内测,2021 年 11 月全面开放),奠定了后续商业化的基础。
局限性:尽管能力惊人,GPT-3 也存在明显的短板——缺乏对齐(会生成有害/偏见内容),推理步骤不可控,以及在新任务上的表现高度依赖 prompt 的设计质量。
GPT-3.5 实际上是一个模型家族,代表 GPT-3 基座模型经过代码训练和指令微调后的改进版本。
关键版本:
| 版本 | 发布时间 | 特点 |
|---|---|---|
| code-davinci-001 | 2022 年 3 月 | Codex 代码模型 |
| code-davinci-002 | 2022 年 8 月 | 改进版,在 GitHub 代码上额外预训练 |
| text-davinci-002 | 2022 年 5 月 | 基于 code-davinci-002 做 SFT 指令微调 |
| text-davinci-003 | 2022 年 11 月 | 加入 RLHF 对齐,大幅提升质量和安全性 |
| gpt-3.5-turbo | 2023 年 3 月 | ChatGPT 专用模型,优化推理效率 |
三个训练阶段:
ChatGPT 发布(2022 年 11 月 30 日):
ChatGPT 基于 gpt-3.5-turbo,以对话界面包装了 GPT-3.5 的能力。其爆发速度史无前例:
ChatGPT 的成功不仅来自底层的技术突破,还来自优秀的产品设计——对话式界面降低了使用门槛、多轮对话保持了交互的连贯性、免费策略让任何人都能零成本体验最前沿的 AI。
| 维度 | 参数值 |
|---|---|
| 发布 | 2023 年 3 月 14 日 |
| 参数量(非官方) | ~1.8T(谣传为 MoE 架构) |
| 层数 | 120 |
| 专家网络 | ~16 个(每次前向激活 2 个) |
| 每专家参数量 | ~111B |
| 上下文窗口 | 初始 8K → 32K(2023 年 6 月)→ 128K(GPT-4 Turbo) |
| 训练数据 | 未公开,据悉包含互联网文本 + 许可数据 + 合成数据 |
| 成本 | 训练成本超 1 亿美元 |
| 多模态 | 支持图像输入(视觉理解)→ 文本输出 |
| 知识截止 | 2021 年 9 月(初始)→ 2023 年 4 月(Turbo) |
架构推测:虽然 OpenAI 从未官方确认,但多方线索(包括一份泄露的规范文档和 SemiAnalysis 的分析)强烈暗示 GPT-4 采用了 MoE(Mixture of Experts)架构。具体推测为:约 1.8T 总参数、120 层、约 16 组 Expert(每组约 111B 参数),每次推理仅路由到其中 2 个 Expert,因此有效推理参数约为 ~280B。这使得 GPT-4 在推理成本上远比同等规模的稠密模型高效。
核心创新:
GPT-4 系列完整图谱:
| 名称 | 发布时间 | 特点 |
|---|---|---|
| GPT-4(初始) | 2023-03-14 | 8K 上下文,ChatGPT Plus 可用 |
| GPT-4(32K) | 2023-06-13 | 上下文扩展至 32K tokens |
| GPT-4 Turbo | 2023-11-06 | 128K 上下文,3× 更低价格,知识截止更新至 2023 年 4 月 |
| GPT-4 Turbo(Vision) | 2024-04-09 | 融合视觉理解到 Turbo 中 |
| GPT-4o | 2024-05-13 | 原生多模态,大幅降低延迟 |
GPT-4o 的 "o" 代表 "omni"(全能),标志着 GPT 从文本模型跃升为原生多模态模型。
核心能力:
GPT-4o Mini(2024 年 7 月):轻量级低成本模型,在接近 GPT-4o 的水平下提供极低延迟和约 1/20 的价格。迅速成为高性价比部署的首选模型。
GPT-4.1 系列是 OpenAI 为编程和长上下文场景专门优化的模型家族,包含三个规模等级:
| 模型 | 上下文窗口 | 特点 | 每百万输入 | 每百万输出 | 定位 |
|---|---|---|---|---|---|
| GPT-4.1 | 1M tokens | 旗舰模型 | $2.00 $8.00 | 复杂编程与全代码库分析 | |
| GPT-4.1 Mini | 1M tokens | 中端轻量 | $0.40 $1.60 | 日常编程辅助与中等复杂度任务 | |
| GPT-4.1 Nano | 1M tokens | 极致轻量 | $0.10 $0.40 | 高吞吐、延迟敏感场景 |
关键改进:
GPT-4.5(2025 年 4 月):在 GPT-4.1 稍早发布的一个过渡版本,OpenAI 称之为"内部最大的模型",后来被 GPT-4.1 和 GPT-5 快速取代。标志着 GPT-4 时代到 GPT-5 时代的过渡。
从 GPT-4 开始,OpenAI 推出了专门为深度链式推理优化的一系列模型:
| 模型 | 发布时间 | 定位 |
|---|---|---|
| o1-preview | 2024-09-12 | 首次引入 CoT 推理,数学和编程基准大幅领先 GPT-4o |
| o1-mini | 2024-09-12 | 轻量化推理模型,代码和数学任务为主,价格更低 |
| o1 | 2024-12-05 | 完整版推理模型 |
| o3 | 2025年初 | 最强推理模型,AIME 2025 数学竞赛得分超 90% |
| o4-mini | 2025年 | 轻量化推理 |
o1 的核心创新:"thinking token"——模型在最终输出之前会生成内部的思路链 tokens,这些 tokens 不对用户可见,但用于探索多种推理路径、自我纠错和回溯。这种方法类似于人类的"思考过程",而非直接跳到结论。
o1 与 GPT-4o 的协作模式:在 GPT-5 之前,用户需要手动选择使用哪个模型——GPT-4o(快速回答日常问题)或 o1(深入思考复杂数学、科学和编程问题)。这种"二元选择"用户体验较差,是 GPT-5 重点解决的问题。
GPT-5 于 2025 年 8 月 7 日通过直播发布,是 GPT 系列发展中的最重要的范式转变之一——从多个分立模型走向统一智能系统。
核心创新:实时智能路由
GPT-5 最关键的改进是实时路由器(Real-time Router)——一个内建的小型分类器,根据查询复杂度自动选择两种模式之一:
用户不再需要手动判断"该用哪个模型"。这是 OpenAI 统一 GPT(通用)和 o(推理)两条产品线的最终一步。
关键改进:
基准测试表现:
| 基准 | 分数 | 说明 |
|---|---|---|
| AIME 2025 | 94.6% | 美国数学邀请赛(高难度竞赛) |
| SWE-bench Verified | 74.9% | 真实 GitHub Issue 修复 |
| MMLU | >90% | 多任务语言理解 |
| HealthBench | 最高 | 医学问答准确率 |
GPT-OSS(开源系列):伴随 GPT-5 发布,OpenAI 同时推出 GPT-OSS 系列——一系列开源权重的模型。这标志着 OpenAI 策略的重大转变,回应了开源社区对封闭 API 的商业模式的长期批评。
定价层级:
GPT-5.5 Instant 是 GPT-5 的改进版本,于 2026 年 4-5 月发布,成为 ChatGPT 的新默认模型:
GPT 的训练分为明确的三个阶段,每阶段解决不同的问题:
在庞大规模的无标签文本语料上进行自监督学习。模型通过"预测下一个词"学习语言的统计规律、语法结构、世界知识和基本推理能力。
关键参数:
预训练数据构成(以 GPT-3 为例):
| 数据源 | 权重 | tokens | 特点 |
|---|---|---|---|
| Common Crawl | 60% | 410B(原始) | 互联网抓取,噪声较大 |
| WebText2 | 22% | 19B | Reddit 高评分链接,质量较高 |
| Books1 | 8% | 12B | 电子书语料 |
| Books2 | 8% | 55B | 更大规模的书籍语料 |
| Wikipedia | 3% | 3B | 百科全书式知识 |
预训练阶段产生了 GPT 模型的基础能力——语法、知识、推理种子。
预训练后的模型"知道如何续写文本",但还不知道"如何回答问题"。SFT(Supervised Fine-Tuning)通过在高质量的指令-回答对上训练来弥合这个差距。
操作流程:
关键影响:SFT 使模型从"文本补全引擎"转变为"有用的助手"。ChatGPT 的对话能力很大程度上归功于高质量的 SFT 数据。
RLHF(基于人类反馈的强化学习) 是 GPT-3.5 及之后版本的关键对齐技术,由 InstructGPT 论文(Ouyang et al., 2022)提出。
三步流程:
PPO 的目标函数:
其中 是奖励模型给出的分数, 是 KL 惩罚系数, 衡量 PPO 模型输出分布与 SFT 模型之间的 KL 散度。
RLAIF(基于 AI 反馈的强化学习):由 Anthropic 的 Constitutional AI 论文开创,用 AI 评审替代人类排序。AI 评审者基于一套明确的原则(Constitution,如"回答不能包含有害内容")对模型输出进行评判。优势在于成本极大降低(从 ~$1 每偏好标签降至 <$0.01),且可以全天候运行。
对齐的重要性:未对齐的 GPT-3 可能产生冒犯性、有害或不准确的内容。RLHF 将对齐后的模型(GPT-3.5 及以上)与原始 GPT-3 区分开来,使其成为实际可用的产品。
| 能力维度 | GPT-1 | GPT-2 | GPT-3 | GPT-4 | GPT-4o | GPT-5 |
|---|---|---|---|---|---|---|
| 文本生成质量 | 基础连贯 | 流畅自然 | 优秀 | 极佳 | 极佳 | 文学级 |
| 代码编写 | 无 | 基础 | 一般 | 良好 | 优秀 | 专业级 |
| 逻辑推理 | 无 | 极弱 | 弱 | 较强 | 较强 | 深度思维链 |
| 数学能力 | 无 | 无 | 弱(~30% MATH) | 良好(~70% MATH) | 良好 | 优秀(94.6% AIME) |
| 多模态 | 仅文本 | 仅文本 | 仅文本 | 文本+图像输入 | 文本+图像+音频 | 文本+图像+音频+视频 |
| 上下文长度 | 512 | 1,024 | 2,048 | 128K | 128K | 1M+ |
| 工具使用 | 无 | 无 | 基础 | 函数调用 | Agent 能力 | 深度 Agent |
| 安全对齐 | 无 | 无 | 基础 | 强 | 很强 | 极强 |
| 价格(相对) | — | — | 高 | 很高 | 中 | 中高 |
| 模型 | 输入(每百万 tokens) | 输出(每百万 tokens) | 上下文 | 峰值速率(RPM/RPD) |
|---|---|---|---|---|
| GPT-4o | $2.50 $10.00 | 128K | 10K / 不限 | |
| GPT-4o Mini | $0.15 $0.60 | 128K | 30K / 不限 | |
| GPT-4.1 | $2.00 $8.00 | 1M | 5K / 不限 | |
| GPT-4.1 Mini | $0.40 $1.60 | 1M | 10K / 不限 | |
| GPT-4.1 Nano | $0.10 $0.40 | 1M | 30K / 不限 | |
| GPT-5 | 未公开 | 未公开 | 1M+ | 按 tier 分级 |
| o3 | — | — | — | Pro only |
| 维度 | GPT 系列 | Claude 系列 | Gemini 系列 | DeepSeek 系列 |
|---|---|---|---|---|
| 开发公司 | OpenAI | Anthropic | 深度求索 | |
| 基础架构 | Decoder-Only Transformer | Decoder-Only Transformer | 原生多模态 Transformer | MoE Decoder-Only |
| 核心优势 | 通用能力最均衡,API 生态最成熟 | 长上下文(200K),安全对齐最严格 | 原生多模态,Google 搜索生态深度集成 | 极致性价比(低 10-100 倍),完全开源 |
| 推理模型 | o-series | Opus / Extended Thinking | Gemini 2.0 Thinking | DeepSeek-R1(开源) |
| 最大上下文 | 1M(GPT-4.1) | 200K(Claude 3.5/4) | 2M(Gemini 2.0 Pro) | 128K |
| 开源策略 | 闭源为主(GPT-OSS 例外) | 闭源 | 闭源 | 完全开源 |
| API 生态 | 最成熟,工具链完善 | 成熟 | 逐步改善 | 持续改善 |
| 性价比 | 中 | 中高 | 中低 | 最低 |
用户需求是什么?
├── 日常对话/创意写作 → GPT-4o(快速、便宜、泛用)
├── 编程开发
│ ├── 全代码库分析 → GPT-4.1(1M 上下文)
│ ├── 日常编码辅助 → GPT-4.1 Mini(极致性价比)
│ └── 代码审查/文档 → GPT-4o(够用,更快)
├── 深度研究/复杂推理
│ └── GPT-5(自动路由,无需手动切换)
├── 长文档分析(>100K tokens)
│ └── GPT-4.1(1M 上下文窗口)
├── 实时语音应用
│ └── GPT-4o(原生多模态,低延迟)
├── 大规模高吞吐部署
│ └── GPT-4.1 Mini / Nano(极致性价比)
└── 复杂数学/科学推理
└── GPT-5 思考模式(或 o3)
你是一名资深 Python 后端架构师,专精于分布式系统和高性能 API 设计。请一步一步分析 或 think step by step,即使 GPT-5 内建了思维链,明确要求仍可提升质量# GPT-4+ 函数调用 Python 示例
import openai
response = openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "上海的天气怎么样?下星期有雨吗?"}],
tools=[{
"type": "function",
"function": {
"name": "get_weather_forecast",
"description": "获取指定城市的天气预报",
"parameters": {
"type": "object",
"properties": {
"city": {
"type": "string",
"description": "城市名称(中文)"
},
"days": {
"type": "integer",
"description": "预报天数(1-7)",
"minimum": 1,
"maximum": 7
}
},
"required": ["city", "days"]
}
}
}],
tool_choice="auto" # 模型自动决定是否调用
)
# Structured Outputs 示例(确保 JSON 格式输出)
response = openai.chat.completions.create(
model="gpt-4o-2024-08-06", # 需要支持 structured outputs 的版本
messages=[{"role": "user", "content": "提取这段文本中的实体"}],
response_format={
"type": "json_schema",
"json_schema": {
"name": "entity_extraction",
"schema": {
"type": "object",
"properties": {
"entities": {
"type": "array",
"items": {
"type": "object",
"properties": {
"name": {"type": "string"},
"type": {"type": "string"},
"description": {"type": "string"}
},
"required": ["name", "type"]
}
}
},
"required": ["entities"]
}
}
}
)
| 问题 | 应对策略 | 效果评级 |
|---|---|---|
| 事实错误 | RAG(检索增强生成):将模型输出基于可验证的外部知识库 | ⭐⭐⭐⭐⭐ |
| 知识过时 | 联网搜索:GPT-4+ 原生支持 Browse with Bing / 自定义搜索 API | ⭐⭐⭐⭐ |
| 偏见/安全 | System Prompt 约束 + 输出过滤 + 人工审核环节 | ⭐⭐⭐⭐ |
| 长上下文遗忘 | 重新注入关键上下文 + 摘要压缩历史对话 | ⭐⭐⭐ |
| 推理不可控 | Chain of Thought 提示 + 结构化输出约束 | ⭐⭐⭐⭐ |
| 高成本 | 模型分级(GPT-4.1 Mini 处理简单任务,GPT-5 处理复杂任务) | ⭐⭐⭐⭐⭐ |
生产环境中使用 GPT 系列的推荐架构:
关键设计原则:
此页面为 AI 知识体系 的一部分,内容持续更新中。最后更新:2026 年 5 月。