模型评估方法

基准名称	评估领域	问题形式	说明
HellaSwag	常识推理	句子补全	从多个选项中选出最合理的句子结尾
TruthfulQA	事实准确性	问答题	测试模型生成真实、无偏见回答的能力
ARC Challenge	科学推理	多项选择	小学到高中难度的科学问题
Big-Bench	综合能力	多种形式	200+ 任务的超大套件，涵盖推理、数学、阅读等
SWE-bench	软件工程	代码补丁	用真实 GitHub Issue 评估模型修复代码的能力
GPQA	研究生级科学	多项选择	博士级别难度的物理、化学、生物问题
HLE（Humanity's Last Exam）	极限推理	多种形式	由 500+ 专家协作设计的最难测试集
Chatbot Arena	综合能力	Elo 评分	匿名盲测的众包竞技场

¶ 模型评估方法