MMLU | Hugo Knowledge Base

时间段	代表模型	MMLU 准确率	里程碑意义
2020 年	GPT-3 (175B)	~43.9%	首次显著优于随机基线（25%）
2021 年	其他较小模型	~25-35%	多数模型接近随机水平
2022 年	Chinchilla (70B)	~67.5%	训练数据量革命的代表
2022 年	PaLM (540B)	~69.3%	参数量持续增长的巅峰
2023 年	GPT-4	~86.4%	首次突破人类水平门槛
2023 年	Claude 2	~78.5%	安全优先模型的出色表现
2024 年	GPT-4o	~88.7%	多模态模型的知识广度
2024 年	Claude 3.5 Sonnet	~88.3%	接近人类专家水平
2024 年	Llama 3.1 405B	~88.6%	开源模型追平闭源
2025 年	GPT-4.1	~90.2%	超越人类专家上限

¶ MMLU：大规模多任务语言理解基准