HumanEval：函数级代码生成基准测试

问题	传统方法	HumanEval 的改进
评估指标	BLEU、准确率匹配（只检查 token 级相似度）	功能正确性（实际运行测试用例）
任务类型	代码补全（给定前半段生成后半段）	函数级生成（从自然语言到完整函数）
数据来源	自动从 GitHub 抓取（含大量噪声）	手写题目（精准可控）
语言支持	主要评估 Python	Python（但已扩展到多语言）

属性	数值
总题目数	164
平均每道题测试用例数	7.7 个
平均函数长度	6.8 行
难度级别	入门到中等（相当于 LeetCode Easy/Easy-Medium）
题目来源	人类专家手工编写
语言	Python 3
平均题目描述长度	约 30 个 token

类别	占比	示例
基本运算和字符串操作	~25%	字符串翻转、字符计数、子串查找
列表和数组操作	~20%	数组去重、排序、求和、筛选
数学计算	~20%	最大公约数、素数判断、斐波那契
数据结构操作	~15%	树遍历、链表反转、栈/队列操作
基础算法	~15%	二分查找、排序实现、贪心算法
位运算和特殊运算	~5%	奇偶判断、二进制表示、位计数

pass@k	含义	典型值（优秀模型）
pass@1	一次就能搞定	80%-96%
pass@10	试 10 次能有一对	95%-99%
pass@100	试 100 次能有一对	98%-100%

模型	发布时间	HumanEval pass@1	备注
GPT-3 (175B)	2020-05	~0%	几乎无法生成功能性代码
Codex (12B)	2021-07	28.81%	HumanEval 提出时就是如此
Codex (12B) S	2021-07	37.70%	加大采样次数
Codex (12B) 重排	2021-07	47.00%	使用重排序策略
GPT-Neo 2.7B	2021-03	6.40%	EleutherAI 开源模型
GPT-J 6B	2021-06	11.60%	使用 OneFlow 优化
CodeGen 16B	2022-03	29.28%	Salesforce 多阶段训练
CodeGen 16B Mono	2022-03	35.98%	在 Python 上单阶段微调
PaLM 540B	2022-04	18.60%*	*在 HumanEval 上的早期结果
LaMDA 137B	2022-05	14.00%	对话模型
Codex (12B)	2022-06	72.30%	使用 self-debug + feedback
InCoder 6.7B	2022-04	15.20%	Meta 的填充式代码生成
CodeGen 16B Multi	2022-03	18.38%	多语言训练
PaLM 540B	2022-10	33.60%	代码数据训练后的结果
StarCoder 15B	2023-05	33.57%	BigCode 开源模型
Code LLaMA 34B	2023-08	53.70%	Meta 代码专用 LLaMA
GPT-4	2023-03	87.00%	一次重要突破
Code LLaMA 34B	2023-08	74.80%	Python 持续训练
DeepSeek-Coder 33B	2023-11	75.00%	开源突破
Mixtral 8x7B	2023-12	40.20%	混合专家模型
Gemini Ultra	2023-12	74.40%	Google 旗舰
Claude 3 Opus	2024-03	84.90%	Claude 的代🐭第一次
GPT-4 Turbo	2024-04	90.20%	突破 90%
DeepSeek-V2	2024-05	85.00%	MoE 架构
Qwen2-72B	2024-06	86.60%	阿里巴巴
Claude 3.5 Sonnet	2024-06	92.00%	成本大幅降低
GPT-4o	2024-05	90.50%	原生多模态
Llama 3.1 405B	2024-07	89.00%	Meta 最大开源
DeepSeek-Coder-V2	2024-06	92.70%	开源新标杆
DeepSeek-V3	2024-12	93.40%	671B MoE
Gemini 2.0 Flash	2024-12	91.50%	速度快/准
Claude 3.5 Haiku	2025-02	94.00%	小模型也突破 93%
GPT-4.1nano	2025-04	95.50%	最新前沿
Claude 4 Sonnet	2025-05	96.20%	当前最高水平

模型	pass@1	pass@10	pass@100
Codex (12B)	28.81%	46.81%	72.31%
CodeGen 16B	29.28%	51.51%	74.47%
Code LLaMA 34B	53.70%	76.50%	91.20%
GPT-4	87.00%	95.00%	99.00%
DeepSeek-Coder-V2	92.70%	98.80%	99.80%
Claude 4 Sonnet	96.20%	99.50%	~100%

变体	作者	年份	改动
HumanEval+	EvalPlus 团队	2023	扩充测试用例，提升难度
HumanEval-X	清华/智谱	2023	拓展到多种编程语言
MultiPL-E	University of Illinois	2022	拓展到 10+ 语言
HumanEval-XL	Facebook AI	2023	题目数扩充到 1000+
HumanEval-Plan	MSR	2024	要求先生成计划再写代码

指标	HumanEval	HumanEval+
总测试用例数	~1,260	~20,000+
每道题平均测试数	7.7	~120
覆盖情况	基础功能	边界条件、性能压力
GPT-4 pass@1	87.0%	82.0%

语言	可用题目数	用途
Python	164	原始基准
JavaScript	163	Web 开发评估
TypeScript	158	类型化编程
Java	160	企业开发
C++	156	系统级编程
Go	162	并发编程
Rust	148	安全系统编程
Ruby	155	Web 开发
PHP	152	Web 后端
Swift	138	Apple 生态
Julia	112	科学计算
R	120	数据科学

局限	说明	影响程度
题目数量少	仅 164 题，统计意义有限	⭐⭐⭐
难度偏低	多为入门级算法，与实际工程差距大	⭐⭐⭐⭐⭐
语言单一	仅支持 Python（原始版）	⭐⭐⭐
测试用例简单	边界条件覆盖不足，易被"碰巧正确"的代码欺骗	⭐⭐⭐⭐
函数级粒度	不测试类设计、模块组织、代码可维护性	⭐⭐⭐⭐
无错误信息	代码错误时不给出反馈，不测试调试能力	⭐⭐⭐
数据泄露风险	题目简单，可能出现在训练数据中	⭐⭐⭐

能力	HumanEval	实际工程
单个函数生成	✅ 核心评估	✅
多个函数协同	❌	✅
类/模块设计	❌	✅
错误处理	❌	✅
代码审查	❌	✅
调试修复	❌	✅
系统设计	❌	✅
依赖管理	❌	✅
API 调用	❌	✅
测试编写	❌	✅

基准	评估内容	推荐理由
SWE-bench	真实 GitHub Issue 修复	端到端工程能力
LiveCodeBench	最新编程竞赛题	防止数据泄露
HumanEval+	HumanEval 增强版	更好的区分度
BigCodeBench	大规模代码生成	更全面的覆盖
Abstention & Avoidance	模型何时应该拒绝回答	安全性评估

HumanEval pass@1	编码能力等级	典型应用场景
< 50%	初学者	简单的代码补全工具
50% - 70%	入门级	基本的代码助手，能处理常见算法题
70% - 85%	熟练级	能编写常见函数，需人工审核复杂逻辑
85% - 92%	专业级	可靠生成大部分函数，偶有边界失误
92% - 96%	专家级	函数级代码基本可靠，需评估工程级任务
> 96%	前沿	函数级代码高度可靠，关注更复杂场景

¶ HumanEval：函数级代码生成基准测试

¶ 概述

¶ 一、背景与动机

¶ 1.1 为什么需要 HumanEval？

¶ 1.2 设计原则

¶ 二、数据集详解

¶ 2.1 数据规模与分布

¶ 2.2 任务形式

¶ 2.3 代表性题目示例

¶ 2.4 题目类型分布

¶ 三、评估指标：pass@k 详解

¶ 3.1 什么是 pass@k？

¶ 3.2 数学定义

¶ 3.3 数值计算示例

¶ 3.4 pass@k 的直观解释

¶ 四、历史表现与进展

¶ 4.1 关键模型的 HumanEval 成绩演变

¶ 4.2 突破节点分析

¶ 4.3 pass@10 和 pass@100 的表现

¶ 五、评估方法

¶ 5.1 标准评估流程

¶ 5.2 评估环境

¶ 六、HumanEval 的变体与扩展

¶ 6.1 主要变体概览

¶ 6.2 HumanEval+：更严格的测试

¶ 6.3 MultiPL-E：多语言扩展

¶ 七、HumanEval 的局限性

¶ 7.1 核心局限总结

¶ 7.2 "硬编码"问题

¶ 7.3 与实际工程开发的差距

¶ 八、2026 年的定位与推荐

¶ 8.1 HumanEval 的当前角色

¶ 8.2 更推荐的新基准

¶ 8.3 HumanEval 分数与工程能力的对应

¶ 九、评估实践建议

¶ 9.1 完整的代码评估体系

¶ 9.2 模型对比的最佳实践

¶ 9.3 实际使用场景

¶ 十、结论

¶ 参考资源