GSM8K：小学数学推理基准测试

维度	说明
专注推理	数学限制在小学水平，失败即推理失败，而非知识不足
严格评判	答案精确匹配，17 不等于 18——没有"部分正确"
多步推理	每道题需 2-8 步计算，考验推理链的连贯性
语言多样性	同一数学结构可用多种自然语言场景包装
影响深远	推动了 Chain-of-Thought 提示、Self-Consistency、Process Reward Model 等关键技术的诞生和验证

问题类型	例子
多步加法	"John has 5 apples. He buys 3 more packs of 4 apples each. How many total?"
多步乘法	"Betty saves $10 per week. After 4 weeks, she spends $15. How much left?"
速率问题	"A car travels 60 miles/hour. After 2 hours, how far has it gone?"
逆运算	"Tom has twice as many marbles as Jerry. Together they have 36. How many does each have?"

模型输出	正确	说明
72	✅	完全正确
71	❌	接近但不等同于正确
"72 clips"	❌	虽含正确数字但格式不对（应仅输出数字）
"She sold 72"	❌	格式错误

方法	GSM8K 准确率	说明
Standard (no CoT)	~18%	直接输出答案
CoT (8-shot)	~75%	标准 Chain-of-Thought
CoT + Self-Consistency	~93%	采样 40 条路径 + 多数投票

监督方式	GSM8K 准确率
结果监督（仅最终答案）	~88%
过程监督（每步评分）	~94%

方法	GSM8K 准确率	优势
自然语言 CoT	~75%	推理过程可读
Program-of-Thought	~82%	计算绝对准确（无算术错误）
CoT + Calculator	~90%	混合方法，兼具两者优势

排名	模型	准确率	模型大小	类别
1	Claude Opus 4 (Thinking)	96.2%	未知	闭源
2	DeepSeek R1	96.2%	~670B	开源
3	OpenAI o4 Mini High	96.0%	未知	闭源
4	Claude 3.7 Sonnet	95.8%	未知	闭源
5	Claude Sonnet 4	95.7%	未知	闭源
6	Gemini 2.5 Pro	95.7%	未知	闭源
7	Llama 4 Maverick	95.2%	未知	开源
8	Qwen3 235B A22B (Thinking)	95.2%	235B	开源
9	GPT-5	94.8%	未知	闭源
10	Command A	94.6%	未知	开源
11	Minimax M2.1	94.6%	未知	开源
12	Qwen3 32B	94.6%	32B	开源
13	DeepSeek V3	93.8%	671B	开源
14	Mistral Medium 3	94.2%	未知	开源
15	QwQ 32B	94.0%	32B	开源
16	ERNIE 4.5	94.6%	300B	闭源
17	Nemotron 3 Nano 30B A3B	95.4%	30B	开源
18	GPT-4.5	97.0%	未知	闭源
19	Gemini 2.0 Flash	95.1%	未知	闭源
20	Kimi K2 0711	95.0%	1.0T	开源

模型	参数	GSM8K (CoT)	训练数据
GPT-3 (few-shot, no CoT)	175B	18.0%	通用文本
GPT-3 (few-shot, CoT)	175B	58.1%	通用文本
PaLM	540B	76.0%	通用文本
PaLM (self-consistency)	540B	82.0%	通用文本
GPT-4	未知	87.1%	通用文本
GPT-4 (self-consistency)	未知	92.0%	通用文本
Llama-2 7B	7B	14.1%	通用文本
Llama-2 13B	13B	22.4%	通用文本
Llama-2 70B	70B	56.8%	通用文本
Phi-3-mini 4K	3.8B	82.5%	合成数据
Phi-3.5-mini	3.8B	86.2%	合成数据
DeepSeek-V3	671B	93.8%	高质量多领域

提示方式	准确率	推理过程
无 CoT（直接输出）	18%	模型直接猜测数字
0-shot CoT（"Let's think step by step"）	42%	模型自动生成推理链
8-shot CoT（提供8个示例）	58%	更规范的推理模式
8-shot CoT + Self-Consistency	78%	多条路径取多数
8-shot CoT + 计算器	82%	减少算术错误

错误类型	比例	示例
算术错误	~35%	3.5 × 2 算成 7.0（正确应是 7.0，但浮点精度问题）
理解错误	~25%	将 "half as many" 误解为 "half of total"
遗漏步骤	~20%	忘记计算最终总量，只算到中间结果
无关信息	~10%	引入了不相关的数字进行计算
符号错误	~10%	用加法代替了减法

研究	发现
GPT-4 论文 (2023)	GPT-4 训练数据可能包含 GSM8K 测试集的部分题目
数据污染检测研究 (2024)	通过在问题中微小改动（如改数字），发现模型性能显著下降
LiveCodeBench 方法 (2024)	使用训练截止日期后发布的新题目，显示旧版 benchmark 性能虚高

Benchmark	最优模型	最差模型（>=7B）	区分间隔
GSM8K (2021)	18%	95%+	~77%
GSM8K (2026)	95%+	86%+	~9%
MATH (2021)	6.9%	90%+	~83%
MATH-500 (2026)	75%+	90%+	~15%
AIME 2025 (2026)	~8%	~72%	~64%

维度	GSM8K	MATH	AIME	AMC
难度等级	小学（2-8步）	高中（竞赛）	竞赛级	竞赛级
题目数量	8,500	12,500	30/年	25/年
运算类型	加减乘除	代数、几何、数论、组合	高级数学	高中数学
数字范围	自然数	整数、实数	整数 000-999	多种
典型准确率（2026年前沿模型）	~96%	~92%	~72%	~85%
区分度（2026年）	低	中	高	中高
数据污染风险	高（静态2021）	高（静态2021）	低（动态）	低（动态）

评估维度	GSM8K	MATH-500	GPQA	AIME 2025	SWE-bench
数学推理	✅ 基础	✅ 高级	❌	✅ 专家级	❌
科学推理	❌	❌	✅	❌	❌
代码生成	❌	❌	❌	❌	✅
领域知识	❌ 仅算术	✅ 多领域	✅ 博士级	✅ 高级数学	✅ 工程
防污染能力	❌ 差	❌ 差	✅ 强	✅ 强	✅ 强
评估成本	低	中	低	中	高

论文	发表	关键贡献
GSM8K: Training Verifiers to Solve Math Word Problems	OpenAI, 2021	GSM8K 数据集发布 + 验证器训练方法
Chain-of-Thought Prompting Elicits Reasoning in LLMs	Google, 2022	提出 CoT 提示方法，在 GSM8K 上验证
Large Language Models are Zero-Shot Reasoners	东京大学, 2022	"Let's think step by step" Zero-shot CoT
Self-Consistency Improves Chain-of-Thought Reasoning	Google, 2022	采样+多数投票，GSM8K 从 58%→78%
Training Verifiers to Solve Math Word Problems	OpenAI, 2021	OVM（outcome verifier）方法
Let's Verify Step by Step	OpenAI, 2023	过程奖励模型（PRM），解决 GSM8K 精细推理
Solving Math Word Problems with Process- and Outcome-Based Feedback	多机构, 2022	过程监督 VS 结果监督对比

资源	链接
GSM8K 原始数据 (HuggingFace)	https://huggingface.co/datasets/openai/gsm8k
GSM8K 原始代码	https://github.com/openai/grade-school-math
lm-evaluation-harness	https://github.com/EleutherAI/lm-evaluation-harness
EvalScope 集成	https://evalscope.readthedocs.io/en/latest/benchmarks/gsm8k.html
LLM-Stats Leaderboard	https://llm-stats.com/benchmarks/gsm8k
PricePerToken Leaderboard	https://pricepertoken.com/leaderboards/benchmark/gsm8k

沪ICP备15048960号-1

¶ GSM8K：小学数学推理基准测试

¶ 概述

¶ 为什么 GSM8K 如此重要？

¶ 数据集规模

¶ 数据集设计哲学

¶ 为何选择小学数学？

¶ 自然语言逐步解答

¶ 72

¶ 语言多样性的重要性

¶ 题目类型分析

¶ 1. 多步算术题

¶ 2. 速率与比例题

¶ 3. 部分-整体关系题

¶ 4. 时间序列题

¶ 评估方法

¶ 标准评估：Chain-of-Thought Prompting

¶ 评分标准：精确匹配（Exact Match）

¶ Zero-shot CoT

¶ Self-Consistency（自一致性）

¶ Process Reward Model（过程奖励模型）

¶ Program-of-Thought（程序化思维）

¶ 性能演进与排行榜

¶ 时间线：GSM8K 上的里程碑

¶ 2026 年 5 月 GSM8K 排行榜 Top 20

¶ 模型大小与性能的关系

¶ 基线实验结果

¶ CoT 提示的具体效果分析

¶ 一步验证：CoT 到底带来了什么？

¶ 常见错误类型分析

¶ 经典失败案例分析

¶ GSM8K 的局限性与批评

¶ 1. 数据污染风险

¶ 2. 区分度下降

¶ 3. 是否真的测试了"推理"？

¶ GSM8K 的变种与扩展

¶ GSM8K-Symbolic

¶ GSM8K-Rev（反向问题）

¶ GSM8K + Program-of-Thought

¶ GSM8K 的实践：用 Python 进行评估

¶ 安装与配置

¶ 评估单模型

¶ 输出示例

¶ 使用 Python API 自定义评估

¶ 与其他数学推理基准的对比

¶ 核心区别

¶ 与其他基准的对比矩阵

¶ 为什么 GSM8K 仍被广泛使用？

¶ 延伸阅读与研究论文

¶ 核心论文

¶ 数据集与工具

¶ 总结