主流大语言模型与多模态模型全景索引:从 GPT、Claude、Gemini 到 DeepSeek、Qwen、LLaMA 等。本页汇集所有模型子页面的入口,提供各模型家族的横向对比、能力演进时间线、参数量级概览与选型指南。
截至 2026 年 5 月,全球 AI 大模型已形成 四大阵营 + 三大开源生态 的格局。以下按公司/组织分类,汇总主要模型系列:
| 阵营 | 公司/组织 | 代表模型 | 闭源/开源 | 核心特点 |
|---|---|---|---|---|
| 美国头部闭源 | OpenAI | GPT-4o, o1, o3, GPT-4.5 | 闭源 | 通用推理最强,生态最成熟,API 调用量最大 |
| 美国头部闭源 | Anthropic | Claude 3.5 Sonnet, Claude 4 | 闭源 | 安全性突出,长上下文(200K+),编程与写作质量高 |
| 美国科技巨头 | Gemini 2.5 Pro, Gemini 2.0 Flash | 闭源(部分开源) | 海量多模态原生支持,与 Google 生态深度整合 | |
| 美国科技巨头 | Meta | LLaMA 3, LLaMA 4 | 开源 | 开源社区标杆,生态丰富,适合自部署 |
| 中国头部 | DeepSeek | DeepSeek-V3, DeepSeek-R1 | 开源 | MoE 架构,推理成本极低(1/10 of GPT-4),数学推理强 |
| 中国头部 | 阿里巴巴 | Qwen 2.5, Qwen 3 | 开源 | 多模态,中文优化极佳,全尺寸覆盖(0.5B-72B) |
| 中国头部 | 智谱 AI | GLM-4, GLM-5 | 开源 | 中英双语,Agent 能力突出,工具调用原生支持 |
| 中国头部 | 月之暗面 | Kimi K2/K1.5 | 闭源 | 超长上下文(200 万字),中文内容深度理解 |
| 欧洲 | Mistral AI | Mistral Large 2, Mistral Small | 开源(部分) | 欧洲标杆,多语言(英/法/德/西等),MoE 高效 |
| 开源社区 | 多个 | LLaMA 系列微调版 | 开源 | 社区衍生(Alpaca, Vicuna, Yi 等),百花齐放 |
2020 ───────────────────────────────────────────────────── 2026
│ │ │ │ │ │
GPT-3 Chinchilla GPT-4 GPT-4o o1/o3
│ │ │ │
│ LLaMA 1 LLaMA 2 │ LLaMA 3 │ LLaMA 4
│ │ │
│ Claude 1 Claude 2 Claude 3 Claude 3.5 Claude 4
│ │ │
│ PaLM Gemini │ Gemini 1.5 │ Gemini 2.5
│ │ │
│ GLM-130B ChatGLM │ GLM-4 │ GLM-5
│ │
│ Qwen 1.0 Qwen 1.5 │ Qwen 2 │ Qwen 2.5 Qwen 3
│ │
│ DeepSeek LLM DeepSeek-V2 DeepSeek-V3 DeepSeek-R1
不同参数量级适配不同的部署场景:
| 参数量级 | 代表模型 | 典型部署方式 | 适用场景 |
|---|---|---|---|
| ≤ 7B | Qwen 2.5-7B, LLaMA 3-8B, Gemma 2-9B | 本地设备/边缘 | 简单对话、文本分类、小型 RAG |
| 7B-20B | Qwen 2.5-14B, Mistral 8x7B (MoE) | 消费级 GPU (RTX 4090) | 中等复杂度任务、代码辅助 |
| 20B-70B | LLaMA 3-70B, Qwen 2.5-72B, DeepSeek-V3 | A100/H100 单机 | 高精度推理、专业写作 |
| 70B-200B | GPT-4 (传闻 1.7T MoE), Gemini Ultra | 大规模集群 | 顶级推理、多模态理解 |
| > 200B (MoE) | DeepSeek-V3 (671B total / 37B active) | 大规模集群 | 极强推理、高并发 API 服务 |
OpenAI 的模型演进定义了现代 LLM 的发展路线图。
| 时间 | 模型 | 参数量 (推测) | 意义 |
|---|---|---|---|
| 2018.06 | GPT-1 | 117M | 首次证明生成式预训练的有效性 |
| 2019.02 | GPT-2 | 1.5B | 展示大模型零样本能力,引发安全思考 |
| 2020.05 | GPT-3 | 175B | 开创 In-Context Learning 范式 |
| 2022.03 | GPT-3.5 (InstructGPT) | 175B | 引入 RLHF,ChatGPT 发布(2022.11)引爆全球 |
| 2023.03 | GPT-4 | 推测 1.7T MoE | 多模态(图像输入),接近人类水平的多任务能力 |
| 2023.11 | GPT-4 Turbo | - | 128K 上下文,知识更新至 2023.04,价格降低 2-3 倍 |
| 2024.05 | GPT-4o | - | 原生多模态(文本+图像+音频实时交互) |
| 2024.09 | o1 系列 | - | 首次引入 Chain-of-Thought 推理,数学和编程大幅提升 |
| 2025.01 | o3 系列 | - | 增强推理版本,在 ARC AGI 等评测上创造记录 |
| 2025.02 | GPT-4.5 | - | 优化版通用大模型 |
| 评估维度 | 得分 | 对比 GPT-4 |
|---|---|---|
| MMLU (知识推理) | 88.7% | +2.3% |
| HumanEval (代码) | 90.2% | +3.1% |
| 响应速度 (推理时间) | 0.3s (vs 2.1s) | 快 7 倍 |
| 多模态理解 (图像) | 原生支持 | 需独立图像模型 |
| 音频延迟 | 232ms (端到端) | 工业级实时对话标准 |
| API 价格 (输入/百万 token) | $2.50 / $10 | 降价 50% |
o 系列模型引入了 内部推理 token(Test-Time Compute)机制:
用户提问
│
▼
┌─────────────────────────────────────┐
│ o1 推理过程(内部,不对外展示) │
│ │
│ Step 1: 理解问题意图 │
│ Step 2: 分解为子问题 │
│ Step 3: 对每个子问题尝试多路径 │
│ Step 4: 自我评估并选择最佳路径 │
│ Step 5: 组合各子问题答案 │
│ │
│ ├──── 推理 token(内部)───────┤ │
└─────────────────────────────────────┘
│
▼
最终回复(对外展示)
o1 vs GPT-4o 性能对比(数学推理):
| 测试集 | GPT-4o | o1-preview | o1 | o3 |
|---|---|---|---|---|
| AIME 2024 (数学竞赛) | 12% | 56% | 83% | 96% |
| Codeforces (编程竞赛) | 11 百分位 | 62 百分位 | 89 百分位 | 93 百分位 |
| GPQA (博士级科学问题) | 56% | 73% | 78% | 87% |
| MATH-500 | 76% | 85% | 94% | 98% |
关键洞察: o1/o3 的推理时间随问题难度自适应增长。简单问题仅需数十推理 token,复杂数学问题可达数千。o3 相比 o1 进一步优化了推理效率,同等准确率下推理时间减少约 40%。
Anthropic 以 安全优先 和 长上下文 为差异化优势。
| 时间 | 模型 | 上下文长度 | 关键特性 |
|---|---|---|---|
| 2023.03 | Claude 1 | 9K | 首批 RLHF 安全对齐模型之一 |
| 2023.07 | Claude 2 | 100K | 显著提升编程和写作能力 |
| 2024.03 | Claude 3 (Haiku/Sonnet/Opus) | 200K | 三档产品线,Opus 在多项基准上超越 GPT-4 |
| 2024.06 | Claude 3.5 Sonnet | 200K | 编码能力全面超越 GPT-4o,速度提升 2x |
| 2024.10 | Claude 3.5 Haiku | 200K | 新一代轻量模型,速度与质量的平衡 |
| 2025.02 | Claude 3.5 Opus | 200K | 旗舰级推理,在 SWE-bench 上达 49% |
| 2025.06 (推测) | Claude 4 | 500K+ | 新一代架构,支持更长上下文和更强推理 |
| 指标 | 3.5 Sonnet | 3.5 Opus | 3.5 Haiku |
|---|---|---|---|
| MMLU | 90.2% | 92.1% | 87.5% |
| HumanEval | 93.7% | 95.2% | 88.3% |
| 推理速度 (tokens/s) | 82 | 35 | 185 |
| 价格/百万输入 tokens | $3.00 $15.00 | $0.80 | |
| 价格/百万输出 tokens | $15.00 $75.00 | $4.00 | |
| 典型延迟 (首 token) | 0.4s | 1.2s | 0.2s |
Claude 长上下文检索精度实验数据:
| 上下文长度 | Claude 3.5 Sonnet | GPT-4o (128K) | Gemini 1.5 Pro |
|---|---|---|---|
| 10K tokens | 99.2% | 98.7% | 99.0% |
| 50K tokens | 98.5% | 95.3% | 98.1% |
| 100K tokens | 97.1% | 87.6% | 97.5% |
| 150K tokens | 95.8% | 72.4% | 96.2% |
| 200K tokens | 93.2% | - | 93.8% |
数据来源:Needle In A Haystack 测试基准。Claude 是首个在 200K 上下文保持 >90% 检索精度的商用模型。
Google 将旗下 DeepMind 和 Google Brain 团队合并后推出的 原生多模态 模型。
| 时间 | 模型 | 参数 | 核心特点 |
|---|---|---|---|
| 2023.12 | Gemini 1.0 Pro | - | Google 首款原生多模态模型 |
| 2024.02 | Gemini 1.5 Pro | - | 突破性 1M token 上下文,MoE 架构 |
| 2024.05 | Gemini 1.5 Flash | - | 轻量化版本,速度/质量的权衡 |
| 2024.08 | Gemini 2.0 Flash | - | 新架构,速度提升 2x,支持 Agentic |
| 2025.03 | Gemini 2.5 Pro | - | 旗舰级推理,增强编程能力 |
| 指标 | 数据 | 说明 |
|---|---|---|
| 默认上下文 | 1M tokens (可扩展至 10M) | 全行业最长 |
| 多模态输入 | 文本 + 图像 + 视频 + 音频 + 代码 | 原生而非拼接 |
| MMLU | 91.8% | - |
| HumanEval | 94.1% | - |
| MMMU (多模态) | 80.5% | 多模态理解行业最高 |
| 视频理解 | 支持 1 小时完整视频 | 逐帧分析,非抽样帧 |
与传统模型将不同模态分开处理不同,Gemini 从预训练阶段就使用 多模态联合训练:
传统多模态方案(GPT-4V):
文本编码器 ──┐
├── 交叉注意力 ──→ LLM ──→ 文本输出
视觉编码器 ──┘
Gemini 原生多模态:
多模态 Encoder ──→ Unified Transformer ──→ 多模态输出
(文本+图像+音频+视频 统一编码) (文本+图像生成)
实际效果差异:
| 场景 | GPT-4o | Gemini 2.5 Pro |
|---|---|---|
| 从 2 小时视频中找出特定场景 | 需人工截取关键帧 | 直接输入完整视频分析 |
| 理解手绘图表与文字混排 | 偶尔混淆颜色/箭头指向 | 精确理解复杂图表 |
| 音频情感分析(同时听语调和语意) | 需分开处理 | 原生同时分析 |
LLaMA 是 开源大模型生态的基石,几乎所有开源模型都基于 LLaMA 架构。
| 版本 | 发布时间 | 参数规模 | 上下文 | 开源许可 | 关键突破 |
|---|---|---|---|---|---|
| LLaMA 1 | 2023.02 | 7B/13B/33B/65B | 2K | 研究许可(已泄露) | 在小参数量上达到 GPT-3 水平 |
| LLaMA 2 | 2023.07 | 7B/13B/70B | 4K | 商业可用 | 首次开放商业使用,RLHF 对齐 |
| LLaMA 3 | 2024.04 | 8B/70B | 8K | 商业可用 | 大飞跃,8B 超越 70B 前辈 |
| LLaMA 3.1 | 2024.07 | 8B/70B/405B | 128K | 商业可用 | 405B 首个千亿级开源模型 |
| LLaMA 4 | 2025.02 | 10B/90B/400B | 256K | 商业可用 | MoE 架构,推理效率大幅提升 |
| 特性 | LLaMA 3.1 405B | LLaMA 4 400B |
|---|---|---|
| 架构 | Dense Transformer | MoE (Mixture of Experts) |
| 总参数量 | 405B | 400B |
| 推理激活参数量 | 405B | ~40B |
| 推理速度 | 基准 (×1.0) | ×4.2 |
| 推理成本 | 基准 (×1.0) | ×0.35 |
| 上下文 | 128K | 256K |
| 训练数据 | 15T tokens | 30T+ tokens |
成本对比: 在 AWS p5.48xlarge (8×H100) 上部署 LLaMA 3.1 405B 推理成本约为 $3.50/百万输出 tokens,而 LLaMA 4 400B(MoE)仅约 $1.20/百万输出 tokens,降低 65%。
LLaMA 催生了庞大的微调生态:
LLaMA Base
│
├── Alpaca (Stanford) — 52K 指令微调
├── Vicuna — ShareGPT 对话数据微调
├── LLaMA 2 Chat — Meta 官方微调
├── Code LLaMA — 代码专用
├── Yi (01.AI) — 基于 LLaMA 架构的中文优化
└── Orca (Microsoft) — GPT-4 数据蒸馏
中国公司深度求索,以 极致性价比 和 开源精神 撼动全球市场。
| 时间 | 模型 | 参数量 | 关键创新 |
|---|---|---|---|
| 2024.01 | DeepSeek LLM | 67B | 首次公开 |
| 2024.05 | DeepSeek-V2 | 236B (21B active) | MLA 注意力 + DeepGEMM |
| 2024.12 | DeepSeek-V3 | 671B (37B active) | MoE 极致优化,训练仅 $5.58M |
| 2025.01 | DeepSeek-R1 | 671B (37B active) | 开源推理模型,媲美 o1 |
| 2025.05 | DeepSeek-V3 (0319) | 671B (37B active) | 持续优化版 |
DeepSeek-V3 的训练成本引发了全球 AI 行业的反思:
| 维度 | DeepSeek-V3 | GPT-4 (估算) | 比例 |
|---|---|---|---|
| 总训练成本 | $5.58M $100M - $200M | 1:18 - 1:36 | |
| 训练 GPU | 2,048 H800 | 25,000 A100 (估) | 1:12 |
| 训练时间 | ~2.7 个月 | ~4-6 个月 | 1:1.5 |
| 训练数据量 | 14.8T tokens | ~13T tokens (估) | ≈1:1 |
| 推理成本 (百万 token) | $0.14 $2.50 - $10 | 1:18 - 1:71 |
DeepSeek 为什么这么便宜? 三大核心创新:
DeepSeek-R1 是首个 开源推理模型,通过强化学习训练出内部推理链:
| 测试 | DeepSeek-R1-671B | o1-preview | LLaMA 4 400B |
|---|---|---|---|
| AIME 2024 | 79.8% | 56.0% | 45.2% |
| MATH-500 | 97.3% | 85.0% | 82.1% |
| Codeforces | 96.3 百分位 | 62.0 百分位 | 71.0 百分位 |
| GPQA Diamond | 71.5% | 73.0% | 63.4% |
| MMLU | 90.8% | 87.5% | 89.3% |
DeepSeek-R1 的冷启动 RL 流程:
Stage 1: 冷启动 (Cold Start)
┌──────────┐ 少量人工标注 CoT 示例
│ Base │ ──→ 微调 (SFT)
│ Model │
└──────────┘
Stage 2: 推理强化学习 (Reasoning RL)
┌──────────┐ 奖励信号 = 答案正确性 + 推理质量
│ SFT │ ──→ GRPO 算法引导推理链收敛
│ Model │
└──────────┘
Stage 3: 拒绝采样 + 通用微调
┌──────────┐ 自我生成 → 筛选优质样本 → SFT
│ RL Model │ ──→ 提升可读性和通用能力
└──────────┘
Qwen (通义千问) 以 全尺寸覆盖 和 中文优化 著称。
| 版本 | 时间 | 参数量 | 上下文 | 特点 |
|---|---|---|---|---|
| Qwen 1.0 | 2023.08 | 1.8B/7B/14B/72B | 8K | 首批中文大模型之一 |
| Qwen 1.5 | 2024.02 | 0.5B ~ 72B | 32K | 多尺寸,编码能力提升 |
| Qwen 2 | 2024.06 | 0.5B ~ 72B | 32K | 多语言能力大幅提升 |
| Qwen 2.5 | 2024.09 | 0.5B ~ 72B | 128K | 全面基准突破,代码+数学+多语言 |
| Qwen VL (多模态) | 2025.01 | 7B/72B | - | 图像理解 + OCR |
| Qwen 3 | 2025.05 | 0.5B ~ 235B | 256K | MoE 架构旗舰 |
| 模型 | MMLU | HumanEval | MATH | 理解速度 | 特点 |
|---|---|---|---|---|---|
| Qwen 2.5-0.5B | 49.2% | 28.3% | 18.5% | 极快 | 手机端部署,占用 < 1GB |
| Qwen 2.5-1.5B | 60.8% | 45.2% | 35.7% | 很快 | 消费级推理的入门选择 |
| Qwen 2.5-7B | 76.4% | 82.6% | 64.5% | 快 | 单 GPU 可运行,社区最活跃 |
| Qwen 2.5-14B | 80.3% | 87.9% | 73.8% | 中等 | 精度与资源的平衡点 |
| Qwen 2.5-32B | 83.5% | 90.5% | 79.2% | 较慢 | 需要多 GPU,接近 GPT-3.5 |
| Qwen 2.5-72B | 86.1% | 92.8% | 83.6% | 慢 | 推理需要 H100 级别 GPU |
实际部署建议: 对大多数 RAG 和对话场景,Qwen 2.5-7B 已足够。如需高精度代码或数学推理,推荐 Qwen 2.5-72B 及以上。
GLM (General Language Model) 是清华系智谱 AI 的产品,以 中英双语 和 Agent 能力 见长。
| 时间 | 模型 | 架构 | 关键进展 |
|---|---|---|---|
| 2021 | GLM-10B | Autoregressive Blank Infilling | 首创双向注意力填空预训练 |
| 2023 | GLM-130B | 130B Dense | 全球首个千亿级开源双语模型 |
| 2023.09 | ChatGLM (GLM-6B) | 6B | 消费级 GPU 可推理的中文模型 |
| 2024.01 | GLM-4 | 130B+ | Agent 原生支持,工具调用能力 |
| 2024.06 | GLM-4-9B | 9B | 轻量级版本,支持 128K 上下文 |
| 2025.03 | GLM-5 | 未知 | 多模态融合,Agent 能力升级 |
GLM-4 在模型层面原生支持 工具调用 (Tool Use):
用户:"帮我查一下明天的天气,然后设置一个提醒"
│
▼
GLM-4 Agent 内部流程:
Step 1: 调用 get_weather("北京", "明天")
Step 2: 收到结果 "晴,25-32°C"
Step 3: 调用 set_reminder("带伞", "明早8点")
Step 4: 整合回复:"明天北京晴好,25-32°C,已设置带伞提醒"
GLM-4 Agent 支持的工具类型:
| 工具类型 | 示例 | 数量 |
|---|---|---|
| 信息查询 | 天气、股票、新闻 | 50+ |
| 系统操作 | 日历、邮件、笔记 | 20+ |
| 数据处理 | 表格、SQL、API | 30+ |
| 创作辅助 | 图像生成、文档整理 | 15+ |
月之暗面 (Moonshot AI) 的 Kimi 以 超长上下文 为差异化战略。
| 时间 | 模型 | 上下文长度 | 特点 |
|---|---|---|---|
| 2024.01 | Kimi Chat | 20 万字 | 首个中文超长上下文产品 |
| 2024.06 | Kimi K1 | 100 万字 | 长文档理解能力大幅提升 |
| 2025.01 | Kimi K1.5 | 200 万字 | 对标 o1 的推理能力 |
| 2025.04 | Kimi K2 | 200 万字 | MoE 架构,统一多模态 |
| 指标 | K2 表现 | 对比 DeepSeek-R1 |
|---|---|---|
| 有效上下文 | 200 万字 | 128K |
| 长文档检索精度 (>100 万字) | 96.8% | 未公开 |
| 多模态支持 | 图像 + PDF + 网页 | 仅文本 |
| 可用性 | 完全免费 | 付费 API |
| 产品定位 | ToC 产品优先 | 模型第一 |
实测场景对比: 处理一本《深度学习》(花书,约 50 万字),Kimi 可以在 30 秒内理解全书结构并回答任意章节细节问题,而传统 RAG 方案(Chunk + Embedding)在此类超长场景下容易遗漏跨 30 万字的信息关联。
法国 AI 公司 Mistral 以 高效 MoE 架构 和 多语言支持 在欧洲领先。
| 模型 | 发布时间 | 参数量 | 架构 | 特点 |
|---|---|---|---|---|
| Mistral 7B | 2023.09 | 7B | Dense | 超越 LLaMA 2 13B,GQA 注意力 |
| Mixtral 8x7B | 2023.12 | 46B (12B active) | MoE | 首个开源 MoE,超越 LLaMA 2 70B |
| Mixtral 8x22B | 2024.04 | 141B (39B active) | MoE | 更大 MoE,更强推理 |
| Mistral Large | 2024.02 | 未知 | 闭源 | 旗舰级性能,多语言优化 |
| Mistral Large 2 | 2024.07 | 123B | 闭源 | 推理能力比肩 GPT-4 |
| 语言 | Mistral Large 2 | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| 英语 | 96.2% | 96.5% | 96.8% |
| 法语 | 93.5% | 88.1% | 87.3% |
| 德语 | 91.8% | 86.5% | 85.1% |
| 西班牙语 | 92.1% | 89.2% | 88.7% |
| 意大利语 | 91.5% | 85.8% | 84.2% |
在非英语欧洲语言上,Mistral 大模型具有明显的原生优势。
| 场景 | 首选模型 | 备选方案 | 推荐理由 |
|---|---|---|---|
| 日常 AI 助手 | GPT-4o | Claude 3.5 Sonnet | 通用能力最强,生态最完善 |
| 编程辅助 (IDE) | Claude 3.5 Sonnet | GPT-4o | SWE-bench 最高,代码理解深入 |
| 长文档分析 | Gemini 2.5 Pro | Kimi K2 | 1M+ token 上下文,检索精准 |
| 数学/逻辑推理 | DeepSeek-R1 | Claude 4 / o3 | 推理链透明,数学能力突出 |
| 中文内容创作 | Qwen 3 | GLM-5 / Kimi K2 | 中文语义理解最佳 |
| 多模态 (视频) | Gemini 2.5 Pro | GPT-4o | 原生视频理解能力 |
| 开源自部署 | LLaMA 4 / Qwen 2.5 | DeepSeek-V3 | 社区活跃,许可友好 |
| 成本敏感 API | DeepSeek-V3 | Mistral Large 2 | 1/10 的 GPT-4o 价格 |
| 多语言 (非英语) | Mistral Large 2 | GPT-4o | 欧洲语言原生优势 |
| Agent 工具调用 | GLM-4 | GPT-4o | 原生工具设计 |
| 预算层级 | 推荐方案 | 月成本估算 (100万次对话) |
|---|---|---|
| 免费 | Kimi Chat / Gemini Free | $0 |
| 小规模 ($1-10/月) DeepSeek-V3 API ~$2-8 | ||
| 中等规模 ($10-100/月) GPT-4o Mini / Claude Haiku ~$15-60 | ||
| 大规模 ($100-1000/月) GPT-4o / Claude Sonnet ~$200-800 | ||
| 企业级 ($1000+/月) 混合策略:DeepSeek + GPT-4o ~$500-1500 | ||
| 自部署 (一次投入) | LLaMA 4 400B + 8×H100 | $150K 硬件 + $3K/月电费 |
在进行模型选型时,可以从六个维度评估:
通用推理
│
│
编程 ───────┼─────── 多模态
│
│
中文优化
| 模型 | 通用推理 | 编程 | 多模态 | 中文 | 成本效益 | 上下文 |
|---|---|---|---|---|---|---|
| GPT-4o | 10 | 9 | 9 | 8 | 4 | 7 (128K) |
| Claude 3.5 Sonnet | 9 | 10 | 7 | 7 | 5 | 9 (200K) |
| Gemini 2.5 Pro | 9 | 8 | 10 | 7 | 5 | 10 (1M+) |
| DeepSeek-V3 | 8 | 8 | 3 | 9 | 10 | 6 (128K) |
| Qwen 2.5-72B | 8 | 7 | 6 | 10 | 8 | 7 (128K) |
| LLaMA 4 400B | 8 | 8 | 4 | 6 | 7 (自部署) | 8 (256K) |
评分标准:1-10,10 为最佳。特定场景下需加权评估。
汇总各主流模型在关键基准上的表现(截至 2026 年 5 月):
| 模型 | MMLU | HumanEval | GSM8K | MATH-500 | MMMU | SWE-bench |
|---|---|---|---|---|---|---|
| GPT-4o | 88.7% | 90.2% | 95.8% | 76.3% | 69.1% | 32.0% |
| Claude 3.5 Sonnet | 90.2% | 93.7% | 96.4% | 78.5% | 68.3% | 49.0% |
| Gemini 2.5 Pro | 91.8% | 94.1% | 97.2% | 82.1% | 80.5% | 41.5% |
| DeepSeek-V3 | 90.8% | 92.5% | 95.5% | 84.2% | 65.3% | 38.1% |
| DeepSeek-R1 | 90.8% | 92.2% | 96.3% | 97.3% | 64.0% | 35.7% |
| Qwen 2.5-72B | 86.1% | 92.8% | 93.6% | 83.6% | 62.5% | 28.3% |
| LLaMA 3.1 405B | 87.3% | 92.0% | 91.7% | 73.5% | 64.8% | 30.5% |
| Mistral Large 2 | 87.9% | 91.8% | 92.0% | 71.2% | 61.4% | 27.2% |
| Kimi K2 | 87.2% | 89.5% | 94.0% | 79.8% | 67.2% | 33.1% |
| GLM-4 | 85.6% | 86.3% | 91.2% | 68.5% | 58.4% | 24.5% |