MMLU(Massive Multitask Language Understanding)是由 Dan Hendrycks 等人于 2020 年提出的大规模多任务语言理解基准测试,论文发表于 ICLR 2021。MMLU 旨在全面评估语言模型在多学科领域的知识广度和推理能力,是 AI 领域最具影响力的基准之一,截至 2024 年中已累计超过 1 亿次下载量。
MMLU 的核心思想是:要真正衡量一个语言模型的"智能水平",不能仅靠单一任务或领域,而必须覆盖从基础学科到专业领域的广泛知识。它考验模型三方面能力:
MMLU 数据集包含 15,908 道选择题,覆盖 57 个学科任务,分为四大领域:
涵盖抽象代数、大学数学、计算机科学、电气工程、物理学、化学、生物学等 18 个学科。每道题从基础概念到高级应用都有覆盖,例如从高中物理的牛顿定律到大学水平的电路分析。
涵盖美国历史、世界历史、政治学、法学、经济学、心理学、社会学、哲学等 18 个学科。部分题目需要理解文化背景和历史脉络,而非简单的知识记忆。
涵盖医学、临床知识、营养学、药学、管理学、市场营销、会计学、公共安全等 16 个学科。这些领域的问题通常与执业资格考试(如 USMLE、BAR 考试等)难度相当。
涵盖形式逻辑、道德规范、法学推理等 5 个学科。这些领域测试的是模型的结构化推理能力和伦理判断能力。
MMLU 的问题从入门到专家级分为三个层次:
| 难度等级 | 对应教育水平 | 示例 |
|---|---|---|
| 基础概念 | 高中水平 | 基础数学运算、历史事件时间线 |
| 中级理解 | 大学本科水平 | 微积分、有机化学、微观经济学 |
| 高级专家 | 研究生/执业水平 | 医学诊断、法律推理、工程问题 |
MMLU 采用 few-shot 评估 范式,通常使用 5-shot 设置:
def evaluate_mmlu(model, dataset):
"""
MMLU 标准评估流程
- 对每个学科独立进行 few-shot 评估
- 计算各学科准确率,再取宏平均
"""
subject_scores = {}
for subject in dataset.subjects:
correct = 0
total = len(dataset[subject].questions)
for question in dataset[subject].questions:
# 构建 few-shot prompt:5个示例 + 当前问题
prompt = build_few_shot_prompt(
examples=dataset[subject].examples[:5],
question=question
)
# 模型输出
output = model.generate(prompt)
# 解析答案(A/B/C/D)
predicted = parse_answer(output)
if predicted == question.correct_answer:
correct += 1
subject_scores[subject] = correct / total
# 宏平均
return sum(subject_scores.values()) / len(subject_scores)
temperature=0(确定性输出)| 时间段 | 代表模型 | MMLU 准确率 | 里程碑意义 |
|---|---|---|---|
| 2020 年 | GPT-3 (175B) | ~43.9% | 首次显著优于随机基线(25%) |
| 2021 年 | 其他较小模型 | ~25-35% | 多数模型接近随机水平 |
| 2022 年 | Chinchilla (70B) | ~67.5% | 训练数据量革命的代表 |
| 2022 年 | PaLM (540B) | ~69.3% | 参数量持续增长的巅峰 |
| 2023 年 | GPT-4 | ~86.4% | 首次突破人类水平门槛 |
| 2023 年 | Claude 2 | ~78.5% | 安全优先模型的出色表现 |
| 2024 年 | GPT-4o | ~88.7% | 多模态模型的知识广度 |
| 2024 年 | Claude 3.5 Sonnet | ~88.3% | 接近人类专家水平 |
| 2024 年 | Llama 3.1 405B | ~88.6% | 开源模型追平闭源 |
| 2025 年 | GPT-4.1 | ~90.2% | 超越人类专家上限 |
MMLU 的进步速度呈指数级。从 2020 年的 GPT-3(43.9%)到 2024 年的顶级模型(88%+),四年间准确率翻了一番。尤其值得注意的是,2023 年 GPT-4 的推出标志着 MMLU 上首次有模型超越人类专家水平(当时人类基线设为 89.8%),引发了关于"MMLU 是否已饱和"的广泛讨论。
不同学科对模型能力的要求差异显著:
模型表现最好的学科(2024-2025):
模型表现最差的学科:
研究发现,在高性能模型(如 GPT-4、Claude 3)中,模型回答错误时仍保持高置信度,即校准度较差。这意味着:
尽管 MMLU 是多任务基准,但其语言视角以英语为中心。所有 57 个学科的问题均为英文,且知识内容侧重于西方教育体系。这导致:
这催生了中文版本的 MMLU 评测,即 CMMLU 和 C-Eval,专门评测模型在中国学科体系下的表现。
2024 年 6 月,研究人员发布了 MMLU-Pro,这是 MMLU 的强化版本:
Gema 等人(2024 年)对 MMLU 的 5,700 道题进行了人工逐题审核,发现:
CMMLU(Chinese MMLU) 是面向中文和中华文化圈的 MMLU 变体:
C-Eval(2023 年发布)是中国学者开发的中文综合评测基准:
截至 2025 年,MMLU 面临严重的天花板效应:
MMLU 全部为四选一或多选一的选择题,这一格式存在固有局限:
MMLU 作为一个公开基准,存在严重的数据污染风险(Data Contamination / Benchmark Leakage):
高分不等于模型真正"理解"了相应知识:
鉴于 MMLU 的局限性,业界已开发出多种替代和补充基准:
| 基准 | 目标 | 与 MMLU 的对比 |
|---|---|---|
| GPQA | 研究生级别的棘手的推理任务 | 难度更高,需专业知识,污染风险低 |
| GSM8K | 小学数学多步推理 | 侧重推理过程而非知识广度 |
| HumanEval / MBPP | 代码生成能力 | 评估编程而非知识记忆 |
| MT-Bench | 多轮对话质量 | 评估交互能力和生成质量 |
| SWE-bench | 真实软件工程任务 | 评估端到端代码修改能力 |
| HLE (Humanity's Last Exam) | 极高难度问题 | 更难,经过精选,防止数据污染 |
| LiveCodeBench | 实时更新的代码题 | 动态更新,防泄漏 |
当看到模型厂商声称在 MMLU 上获得了 XX% 的分数时,需要注意:
最广泛使用的 LLM 评估框架,内置 MMLU 支持:
# 使用 LM Evaluation Harness 评估 MMLU
python -m lm_eval \
--model hf \
--model_args pretrained=meta-llama/Llama-3.1-8B \
--tasks mmlu \
--num_fewshot 5 \
--batch_size 8
Stanford 的 Holistic Evaluation of Language Models 项目提供标准化的 MMLU 评测:
MMLU 是 AI 评估领域的重要里程碑,它首次提出用多学科、多任务、多难度的体系来全面评估语言模型的能力。在 2020-2023 年间,MMLU 准确率的快速提升清晰展现了 LLM 能力的指数级进展。然而,随着评估分数的饱和和对其局限性的认识加深,MMLU 正从"核心评测基准"转变为"基础基线评测"。现代模型评估应当结合 MMLU 与 MMLU-Pro 等多维度、更高难度的基准,以获得对模型能力的全面认识。