HellaSwag

¶ HellaSwag：常识推理基准测试

¶ 一、概述

¶ 二、从 SWAG 到 HellaSwag：动机与演化

¶ 三、对抗过滤（Adversarial Filtering）详解

¶ 四、数据集构建细节

¶ 五、任务格式与示例

¶ 六、HellaSwag 排行榜与结果

¶ 七、技术分析：模型错误模式

¶ 八、HellaSwag 的影响与后续工作

¶ 九、实践：如何使用 HellaSwag 评估模型

¶ 九点五、HellaSwag 与其他常识推理基准的对比