ARC | Hugo Knowledge Base

¶ ARC：AI2 推理挑战基准测试

¶ 1. 背景与动机

¶ 2. 数据集构成

¶ 3. ARC Corpus：辅助语料库

¶ 4. 评估方法与基线

¶ 5. 性能演进：从 2018 到 2026

¶ 6. 技术方法详解

¶ 7. 代码实践：在 ARC 上评估

¶ 8. 与其他基准的关系

¶ 9. 局限性与批评

¶ 10. 未来展望

¶ 11. 总结