AI2 Reasoning Challenge (ARC) 是由艾伦人工智能研究所(AI2)于2018年提出的科学推理基准测试,旨在评估 AI 系统在小学到初中水平科学问题上的知识整合与多步推理能力。ARC 因其问题的自然性、领域广度和对浅层匹配的抵抗性,成为评估大语言模型(LLM)科学推理能力的核心基准之一。
在 ARC 提出之前(2018年),主流问答基准如 SQuAD(斯坦福问答数据集)和 SNLI(斯坦福自然语言推理)已接近饱和,领先模型的性能已接近人类水平。然而,这些基准存在一个根本性问题:
问题: SQuAD 和 SNLI 中的问题可以通过局部文本匹配、词共现等浅层模式(shallow patterns)来回答,而不需要真正的理解或推理。
例如,SQuAD 的问题通常能在段落中找到字面匹配的答案。ARC 的设计者希望创建一个无法通过浅层技巧解决的基准,迫使模型展示真正的科学推理能力。
ARC 的创建遵循三条关键原则:
| 项目 | 内容 |
|---|---|
| 论文标题 | Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge |
| 作者 | Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord |
| 发表时间 | 2018年3月 |
| 发表机构 | Allen Institute for AI (AI2) |
| arXiv ID | 1803.05457 |
| 数据集链接 | Hugging Face |
ARC 数据集包含 7,787 道真实的小学至初中水平科学选择题,全部来自北美标准化考试(如纽约州 Regents 考试、MCAS 等)。
| 指标 | 数值 |
|---|---|
| 总题目数 | 7,787 |
| Challenge Set 数量 | 2,590 |
| Easy Set 数量 | 5,197 |
| 答案选项数 | 每题 4 个 (A/B/C/D) |
| 领域覆盖 | 物理、化学、生物、地球科学、天文学 |
| 辅助语料库 | 1,400 万句科学相关句子(ARC Corpus) |
ARC 最关键的创新在于将数据集分为两个子集:
划分方法示例:
假设有一个问题:"Which of the following best explains why magnets stick to a refrigerator door?"
以下是从数据集中摘取的真实问题(来自 Hugging Face 数据集):
问题 1(地球科学):
A fold observed in layers of sedimentary rock most likely resulted from the:
- A. cooling of flowing magma
- B. converging of crustal plates ✅(正确答案)
- C. deposition of river sediments
- D. solution of carbonate minerals
问题 2(古生物学/天文学):
Which of these do scientists offer as the most recent explanation as to why many plants and animals died out at the end of the Mesozoic era?
- A. worldwide disease
- B. global mountain building
- C. rise of mammals that preyed upon plants and animals
- D. impact of an asteroid created dust that blocked the sunlight ✅
问题 3(生物学):
Which skin surface will produce the most heat?
- A. skin on an arm
- B. skin on a cheek
- C. skin on a shin
- D. skin on a stomach ✅
这些问题的共同特征是:
ARC 数据集覆盖的主要科学领域:
| 领域 | 占比 | 典型问题类型 |
|---|---|---|
| 地球科学 | ~30% | 板块构造、岩石循环、天气气候、化石记录 |
| 生命科学/生物学 | ~25% | 生态系统、细胞功能、遗传、人体生理 |
| 物理科学 | ~25% | 力学、电磁学、热力学、光学 |
| 化学 | ~15% | 物质性质、化学反应、元素周期表 |
| 天文学/空间科学 | ~5% | 太阳系、恒星演化、宇宙学基础 |
ARC 附带一个庞大的科学语料库(ARC Corpus),包含 1,400 万句经过筛选的科学相关句子,作为模型进行开卷问答(open-book QA)的知识来源。
研究者可以用 ARC Corpus 构建检索增强型 QA 系统:
[问题] → 检索 ARC Corpus → 获取相关证据句子 → [推理模型] → 答案
这种设置类似于现代 RAG(检索增强生成)系统,让模型先检索相关科学知识,再进行推理。
ARC 使用标准的准确率(Accuracy)作为核心指标:
由于是四选一选择题,随机基线(Random Baseline)为 25%。
论文测试了多个基线模型在 Challenge Set 上的表现:
| 模型 | 类型 | Challenge Set 准确率 | 是否超过随机基线 |
|---|---|---|---|
| Random Baseline | 随机猜测 | 25.0% | - |
| Retrieval-based QA | 检索式 | 23.8% | ❌ |
| Word Co-occurrence | 词共现 | 23.1% | ❌ |
| BiDAF (SQuAD SOTA) | 神经注意力 | 25.9% | ⚠️ 略高于随机 |
| DecompAtt (SNLI SOTA) | 神经注意力 | 25.9% | ⚠️ 略高于随机 |
| DGEM (Relation Networks) | 图网络 | 27.9% | ⚠️ 略高于随机 |
核心发现: 2018 年最先进的问答模型(在 SQuAD 和 SNLI 上已达到 ~90% 准确率)在 ARC Challenge Set 上仅获得 25-28% 的准确率,仅略高于随机猜测。这证明了 ARC 的有效性和挑战性。
论文分析了失败原因:
为了说明 ARC 需要的能力,我们来看一个典型的推理链:
问题: "Which skin surface will produce the most heat?"
推理过程:
步骤 1:身体不同部位的基础代谢率不同
步骤 2:躯干核心区域(stomach)的代谢率最高
因为那里集中了肝脏、肾脏等代谢器官
步骤 3:代谢率越高 → 产热越多
步骤 4:四肢(arm、shin)和面部(cheek)远离核心,
代谢率较低,且有更多表面积散热
结论:stomach(腹部皮肤)产热最多
这需要同时理解解剖学(各器官位置)、生理学(代谢差异)和热力学(产热与散热的关系)。
| 时间 | 模型/方法 | Challenge Set 准确率 | 突破 |
|---|---|---|---|
| 2018 | BiDAF (原始基线) | 25.9% | 仅略高于随机 |
| 2019 | ALBERT + T5 微调 | ~45% | 首次显著超越基线 |
| 2020 | RoBERTa | ~55% | 预训练模型开始发挥作用 |
| 2021 | GPT-3 (zero-shot) | ~60% | 大模型展现零样本推理能力 |
| 2022 | PaLM 540B | ~80% | 模型规模带来质的飞跃 |
| 2023 | GPT-4 | 87.2% | 多模态预训练提升显著 |
| 2024 | GPT-4 Turbo | ~90% | 持续改进 |
| 2025 | GPT-5 / DeepSeek R1 | ~96% | 接近人类水平(~97-98%) |
| 2026.05 | GPT-5 | 96.3% | 当前 SOTA |
截至 2026 年 5 月 14 日,已有 43 个模型在 ARC Challenge 上评估,平均得分 92.6%,标准差 6.3%:
| 排名 | 模型 | 提供商 | ARC Challenge (%) | 输入价格 ($/M tokens) |
|---|---|---|---|---|
| 1 | GPT-5 | OpenAI | 96.3 | $1.25 |
| 2 | GLM 5 Thinking | Z AI | 96.0 | $0.60 |
| 3 | GLM 5 | Z AI | 96.0 | $0.60 |
| 4 | MiniMax M1 | MiniMax | 95.3 | $0.40 |
| 5 | Grok 3 Mini Beta | xAI | 95.2 | $0.30 |
| 6 | GPT-4.1 | OpenAI | 95.1 | $2.00 |
| 7 | o4 Mini High | OpenAI | 95.1 | $1.10 |
| 8 | DeepSeek R1 0528 | DeepSeek | 95.1 | $0.50 |
| 9 | Llama 4 Maverick | Meta | 95.0 | $0.15 |
| 10 | Qwen3 235B A22B | Alibaba | 94.8 | $0.07 |
关键观察:
将 ARC 得分与推理成本对比,可以评估模型的效率:
| 模型 | ARC 得分 | 成本 ($/1M 输出) | 性能/成本比 |
|---|---|---|---|
| Qwen3 235B A22B | 94.8% | $0.10 | 948.0 |
| Llama 4 Maverick | 95.0% | $0.60 | 158.3 |
| Grok 3 Mini Beta | 95.2% | $0.50 | 190.4 |
| GPT-5 | 96.3% | $10.00 | 9.6 |
| Claude 3.7 Sonnet | 94.7% | $15.00 | 6.3 |
结论: Qwen3 235B 以不到 GPT-5 1% 的价格,达到了 98.4% 的 ARC 得分,效率优势显著。
ARC 问题可以被分解为以下推理类型:
"A fold observed in layers of sedimentary rock most likely resulted from the..."
推理结构:
观察:沉积岩层中有褶皱
↓
原因搜索:什么地质过程能导致岩层变形?
↓
排除法:
- 岩浆冷却 → 形成火成岩,不是变形
- 沉积物沉积 → 形成新岩层,不是变形
- 碳酸盐溶解 → 形成洞穴,不是变形
- 板块汇聚 → ✅ 产生挤压力,使岩层弯曲形成褶皱
↓
结论:板块汇聚
"Which skin surface will produce the most heat?"
推理结构:
比较对象:arm, cheek, shin, stomach
↓
维度:产热量
↓
关键知识点:
- 产热来自细胞代谢
- 细胞代谢速率在不同组织间不同
- 核心器官(肝、肾、心)代谢率最高
↓
推理:stomach 靠近核心器官 → 代谢率最高 → 产热最多
"Which of the following statements best explains why magnets usually stick to a refrigerator door?"
推理结构:
条件:磁铁吸引冰箱门
↓
原理:
- 磁铁产生磁场
- 铁磁材料(铁、钴、镍、钢)能被磁场吸引
- 冰箱门通常由钢(铁磁材料)制成
↓
验证:其他材料(铝、塑料、木材)不是铁磁材料 → 不被吸引
↓
结论:冰箱门含铁磁材料 → 被磁铁吸引
现代模型在 ARC 上的成功得益于以下技术:
GPT-4、GPT-5 等模型在训练过程中接触了海量的科学文本、教科书、考试题库,积累了丰富的科学知识。
通过在推理前先生成推理链条("Let's think step by step"),模型能将复杂问题分解为多个简单步骤:
Q: A fold observed in layers of sedimentary rock most likely resulted from...
A: Let's think step by step.
1. Folds in rock layers are caused by compressional forces.
2. Compressional forces typically come from tectonic plate convergence.
3. Other options: magma cooling → igneous rocks; river deposits → layering; carbonate solution → caves.
4. Only plate convergence creates compressional forces that fold rocks.
Therefore, the answer is B: converging of crustal plates.
将 ARC 问题与 ARC Corpus 或外部知识库结合,让模型在进行推理前先获取相关科学知识:
[问题] → 检索 ARC Corpus → 获取科学事实 → 拼接上下文 → 生成答案
ARC 问题中包含图形、图表等视觉信息(尤其在 2018 年之后新增的扩展版本中),多模态模型(如 GPT-4V、GPT-5)可以同时处理文本和图像。
使用 Hugging Face datasets 库加载 ARC:
from datasets import load_dataset
# 加载 ARC 数据集
dataset = load_dataset("allenai/ai2_arc", "ARC-Challenge")
# 查看数据集结构
print(dataset)
# 查看一个示例
example = dataset["train"][0]
print(f"问题: {example['question']}")
print(f"选项: {example['choices']['text']}")
print(f"正确答案: {example['answerKey']}")
import requests
import json
from datasets import load_dataset
def evaluate_model_on_arc(model_api_url, api_key, model_name):
"""评估模型在 ARC Challenge 上的准确率"""
dataset = load_dataset("allenai/ai2_arc", "ARC-Challenge")
test_set = dataset["test"]
correct = 0
total = 0
for example in test_set:
question = example["question"]
choices = example["choices"]["text"]
labels = example["choices"]["label"]
answer = example["answerKey"]
# 构建 prompt
prompt = f"""Answer the following science question by selecting the correct option.
Question: {question}
Options:
"""
for label, text in zip(labels, choices):
prompt += f"{label}. {text}\n"
prompt += "\nAnswer with just the letter of the correct option:"
# 调用模型 API
response = requests.post(
model_api_url,
headers={"Authorization": f"Bearer {api_key}"},
json={
"model": model_name,
"messages": [{"role": "user", "content": prompt}],
"max_tokens": 10,
"temperature": 0
}
)
model_answer = response.json()["choices"][0]["message"]["content"].strip()
if model_answer == answer:
correct += 1
total += 1
accuracy = correct / total * 100
print(f"模型 {model_name} 在 ARC Challenge 上的准确率: {accuracy:.1f}%")
return accuracy
from datasets import load_dataset
from sentence_transformers import SentenceTransformer
import numpy as np
import faiss
# 加载 ARC Corpus(简化版)
def build_simple_knowledge_base():
"""构建一个简化的科学知识库"""
return [
"Sedimentary rocks are formed by the deposition of mineral or organic particles.",
"Plate tectonics explains the movement of Earth's lithospheric plates.",
"When plates converge, compressional forces create folds in rock layers.",
"Metabolic rate differs across body tissues. Internal organs like the liver and kidneys have higher metabolic rates than skin and muscle.",
"Ferromagnetic materials include iron, nickel, cobalt, and steel. These materials are attracted to magnets.",
# ... 更多科学事实
]
def rag_evaluate(model_fn, knowledge_base):
"""使用 RAG 评估模型"""
# 将知识库编码为向量
encoder = SentenceTransformer('all-MiniLM-L6-v2')
kb_embeddings = encoder.encode(knowledge_base)
# 构建 FAISS 索引
index = faiss.IndexFlatL2(kb_embeddings.shape[1])
index.add(np.array(kb_embeddings).astype('float32'))
dataset = load_dataset("allenai/ai2_arc", "ARC-Challenge")
correct = 0
for example in dataset["test"]:
question = example["question"]
# 检索相关知识
q_emb = encoder.encode([question])
_, indices = index.search(np.array(q_emb).astype('float32'), k=3)
# 构建增强上下文
context = "\n".join([knowledge_base[i] for i in indices[0]])
enhanced_prompt = f"Context:\n{context}\n\nQuestion: {question}\n\nAnswer:"
# 评估
if model_fn(enhanced_prompt) == example["answerKey"]:
correct += 1
return correct / len(dataset["test"]) * 100
| 基准 | 发布年 | 题目数 | 类型 | 难度 | 人类水平 |
|---|---|---|---|---|---|
| SQuAD 2.0 | 2018 | 150k | 段落抽取 | 低 | ~89% F1 |
| SNLI | 2015 | 570k | 蕴含判断 | 中 | ~92% |
| ARC (Challenge) | 2018 | 2,590 | 科学选择 | 高 | ~97% |
| MMLU | 2020 | 14k | 多领域知识 | 高 | ~90% |
| MMLU-Pro | 2024 | 12k | 增强版 MMLU | 很高 | ~80% |
| GPQA | 2023 | 448 | 专家级科学 | 极高 | ~65% |
核心区别:
MMLU(Massive Multitask Language Understanding)在 2020 年发布后迅速成为最流行的综合知识基准。ARC 与 MMLU 的区别:
| 维度 | ARC | MMLU |
|---|---|---|
| 题目来源 | 标准化考试(K-12) | 考试+教科书(大学) |
| 难度水平 | 小学到初中 | 高中到大学 |
| 推理要求 | 高(多步推理) | 中(知识回忆为主) |
| 领域数 | 5 个科学领域 | 57 个领域 |
| 总数 | 7,787 | 14,042 |
| 选项数 | 4 | 4 |
| 有无语料库 | 有(14M 句子) | 无 |
有趣的现象:许多模型在 MMLU 上得分很高(>90%),但在 ARC Challenge 上却表现不佳,说明 ARC 的推理密度更高。
一个常见的混淆来源是 ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence),这是 François Chollet 在 2019 年提出的完全不同基准:
| 维度 | ARC (AI2) | ARC-AGI |
|---|---|---|
| 提出者 | Allen AI (AI2) | François Chollet |
| 发布年 | 2018 | 2019 |
| 问题类型 | 科学选择题 | 网格推理题 |
| 评估能力 | 科学知识+推理 | 抽象推理+泛化 |
| 题目数 | 7,787 | 800(训练)+ 400(评估) |
| 当前 SOTA | ~96%(GPT-5) | ~37%(Opus 4.5 Thinking) |
| 人类水平 | ~97% | 接近 100% |
| 是否解决 | 接近解决 | 远未解决 |
总结: ARC (AI2) 评估的是科学知识推理能力,而 ARC-AGI 评估的是抽象模式识别与泛化能力。两者是不同的基准,不要混淆。
选择题格式限制
数据泄露风险
接近饱和
文化偏差
ARC 展示了一个重要的基准演化模式:
早期基准(SQuAD, SNLI)
↓
饱和,浅层技巧可解决
↓
ARC 出现 → 推动深度推理能力
↓
接近饱和(2026)
↓
新一代推理基准(GPQA, 新设计)
↓
继续推动 AI 进步
这个模式说明了:好的基准不仅是评估工具,更是研究方向的引导者。ARC 成功地推动了 AI 科学推理能力的发展,从 2018 年的 25% 提升到 2026 年的 96%。
| 项目 | 总结 |
|---|---|
| 是什么 | AI2 推出的 K-12 科学推理基准,包含 7,787 道选择题 |
| 为什么重要 | 要求真正的多步科学推理,无法通过词汇匹配解决 |
| 当前状态 | 接近饱和(SOTA 96.3%),已成为 LLM 的标准评测之一 |
| 核心价值 | 推动了科学问答系统从浅层匹配到深度推理的进化 |
| 主要贡献 | 提出了 Challenge/Easy 划分范式 + 14M 句辅助语料库 |
| 发展方向 | 多模态化、Pro 版本、跨语言扩展 |
相关页面:
此页面为 AI 知识体系 的一部分,内容持续更新中。最后更新:2026-05-14。