智谱AI(Z.AI)GLM 系列模型是代表中国AI前沿水平的语言模型家族,涵盖从千亿参数基座模型到开源对话模型的完整产品线。本文系统梳理 GLM 系列的架构演进、关键技术突破、核心模型特点及行业应用实践。
GLM(General Language Model)模型家族的演进路径清晰地反映了中国AI从研究创新到工程落地的完整脉络。
| 时间 | 模型 | 关键突破 |
|---|---|---|
| 2021.03 | GLM (原版) | 提出通用语言模型架构(Autoregressive Blank Infilling) |
| 2022.08 | GLM-130B | 130B稠密模型,中英双语,ICLR 2023 |
| 2023.03 | ChatGLM-6B | 首个开源双语对话模型,GitHub 41k+ Stars |
| 2023.06 | ChatGLM2-6B | 升级至32K上下文,推理速度提升42% |
| 2023.09 | CodeGeeX2 | 支持100+编程语言,VSCode/JetBrains插件 |
| 2023.10 | ChatGLM3-6B | 统一Agent/代码/对话三层架构 |
| 2024.06 | GLM-4 | 全面对标GPT-4,128K上下文,All Tools |
| 2024.08 | GLM-4-9B | 开源9B参数版本,MIT协议 |
| 2025.06 | GLM-4.5 | 355B MoE架构,Agent原生设计,ARC三合一 |
| 2025.08 | GLM-4.7 | 升级编码能力,推出Flash轻量化版本 |
| 2025.09 | CodeGeeX4 | 9B参数,SWE-Bench开源最优 |
| 2026.02 | GLM-5 | 744B MoE,DeepSeek Sparse Attention,MIT开源 |
| 2026.04 | GLM-5.1 | 进一步优化推理和Agent能力 |
智谱AI源于清华大学知识工程实验室(KEG),其创始人兼CEO张鹏博士是中国最早一批从事大规模预训练模型研究的学者。GLM系列的发展可分为三个阶段:
GLM架构(General Language Model)的核心理念是统一自然语言理解和生成。与GPT(仅解码器单向生成)和BERT(仅编码器双向理解)不同,GLM采用自回归空白填充(Autoregressive Blank Infilling)策略。
核心原理:
数学上,对于输入序列 ,随机选择一组位置集合 进行mask,模型需要最大化以下似然:
其中 是被mask的token, 是保留的上下文部分。这种设计使得一个模型同时具备双向理解和单向生成的能力。
GLM引入了创新的2D位置编码机制:
这种设计让模型既能理解全局上下文关系,又能感知生成片段内部的结构。这是与GPT单向注意力或T5的Span Corruption方法的本质区别。
从GLM-4.5开始,模型转向**混合专家(Mixture of Experts, MoE)**架构:
| 模型 | 总参数 | 激活参数 | 架构类型 | 层数 |
|---|---|---|---|---|
| GLM-130B | 130B | 130B | Dense | 70 |
| GLM-4 | ~200B | ~200B | Dense | 60+ |
| GLM-4.5 | 355B | 32B | MoE | 60+ |
| GLM-4.5-Air | 106B | 12B | MoE | 60+ |
| GLM-4.7 | 355B | 32B | MoE | 60+ |
| GLM-4.7-Flash | 30B | 3B | MoE | ~40 |
| GLM-5 | 744B | 40B | MoE + DS Sparse Attention | 80+ |
MoE架构的核心优势在于通过条件计算实现"大容量、低成本":每个token只激活一小部分专家(~10%参数),从而在推理时保持可控的计算开销,同时模型的总容量远大于稠密模型。
GLM-5在MoE基础上进一步集成了DeepSeek Sparse Attention,显著提升了长序列处理效率和推理质量。
从GLM-4.5开始引入双模式推理:
这种设计借鉴了人类"快思慢想"的双系统理论(Kahneman),让模型在不同场景下选择最优的推理策略。
GLM-130B是GLM系列的第一个大规模模型,也是中国最早开源的千亿参数级模型。
关键规格:
技术突破:
GLM-130B被ICLR 2023接收,成为该会议历史上少数的大规模模型论文之一。
ChatGLM-6B是引爆中国开源AI社区的标志性模型,也是中国首个开源的双语对话模型。
关键信息:
实践建议:
局限与反思:
ChatGLM2-6B(2023.06):
ChatGLM3-6B(2023.10):
GLM-4是智谱AI对标GPT-4的旗舰模型系列,核心版本包括:
关键能力:
| 评测维度 | GLM-4 | GPT-4 | GPT-4 Turbo (128K) | Claude 3 Opus |
|---|---|---|---|---|
| MMLU (EN) | 87.3% | 86.4% | 85.0% | 87.7% |
| MMLU (ZH) | 84.0% | - | 82.1% | 82.7% |
| GSM8K | 较高 | - | - | - |
| HumanEval | 较高 | - | - | - |
| IFEval | 接近 | - | 匹配 | - |
| 长上下文 (128K) | 匹配 | - | 匹配 | 匹配 |
| AlignBench (ZH) | 超越 | - | - | - |
GLM-4 All Tools:
GLM-4-32B-0414(2025):
GLM-4.5标志着GLM系列从Dense架构向MoE架构的全面转型,提出**ARC(Agentic, Reasoning, Coding)**三位一体的设计理念。
GLM-4.5 核心规格:
GLM-4.7 升级重点:
MLPerf表现:
GLM-4.5在MLPerf Inference v5.0中,以基于MoE的离线推理方案,在NVIDIA H100 GPU上实现了开箱即用的高性能推理,展示了MoE架构在实际部署中的效率优势。
GLM-5是Z.AI自GLM-4.5以来首次架构升级,也是目前最强的开源权重模型。
核心规格:
评测表现(Artificial Analysis):
| 评测维度 | GLM-5 | GLM-4.7 | 差异 |
|---|---|---|---|
| Intelligence Index | 50 | 42 | +8点 |
| Agentic Index | 63 | - | 开源最高 |
| AA-Omniscience | -1 | -36 | +35点 |
| 幻觉率 | - | - | -56% |
| GDPval-AA ELO | 1412 | - | 仅次Claude Opus 4.6和GPT-5.2 |
关键改进:
产品兼容性:
最新版本在上线后继续优化,重点提升:
CodeGeeX是智谱AI推出的代码生成模型系列:
| 版本 | 发布 | 参数 | 特点 |
|---|---|---|---|
| CodeGeeX | 2022 | 13B | 100+语言,VSCode插件 |
| CodeGeeX2 | 2023 | 6B+ | 基于ChatGLM2,推理加速 |
| CodeGeeX3 | 2024 | 基于GLM-4 | 代码理解显著提升 |
| CodeGeeX4 | 2025 | 9B | SWE-Bench开源最优 |
CodeGeeX4-9B(2025):
Hugo实践笔记:CodeGeeX插件的VSCode体验与GitHub Copilot相比,在中文注释场景下表现更好(更理解中文语义),但在复杂重构场景下Car建议质量仍有差距。可将其作为"中国场景增强"的Copilot补充方案,而非完全替代。
智谱AI在多模态方向也有完整布局:
这些模型与GLM语言模型共享底层架构,实现了跨模态的语义理解和生成。
GLM系列的数据策略具有清晰的演进脉络:
| 版本 | 数据量 | 数据构成 | 数据质量方法 |
|---|---|---|---|
| GLM-130B | 0.4T tokens | 中英双语 | 基本过滤+去重 |
| GLM-4 | 10T+ tokens | 中英+24种语言 | 来源筛选+目标混合 |
| GLM-4.5 | 23T tokens | 多样化和均衡 | 按源质量评分+语义去重 |
| GLM-5 | 28.5T tokens | Web+Code+STEM | 专用分类器提取信号+阶段性混合 |
数据质量演进:
GLM-4.5/5系列采用多阶段课程学习(Multi-stage Curriculum)策略:
GLM系列在RLHF(基于人类反馈的强化学习)基础上,发展了一系列特色对齐技术:
智谱AI提供多个接入渠道:
| 平台 | 地址 | 特点 |
|---|---|---|
| Z.AI (国际) | api.z.ai | OpenAI兼容API,支持GLM-5/4.5/4.7 |
| BigModel (国内) | bigmodel.cn | 中文优化,GLM-4系列 |
| HuggingFace | huggingface.co/zai-org | 开源模型权重 |
| ModelScope | modelscope.cn | 中文社区 |
Python SDK (Z.AI):
from zai import ZaiClient
client = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
model="glm-5",
messages=[
{"role": "user", "content": "请解释GLM架构的核心创新"}
],
thinking={"type": "enabled"},
max_tokens=4096,
temperature=0.6
)
print(response.choices[0].message.content)
OpenAI兼容API (BigModel):
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://open.bigmodel.cn/api/paas/v4"
)
response = client.chat.completions.create(
model="glm-4",
messages=[
{"role": "user", "content": "介绍GLM-4的核心能力"}
]
)
Hugo实践笔记:Z.AI API(z.ai)的OpenAI兼容性较好,可以直接替换代码中的
base_url使用。GLM-5的thinking模式在复杂逻辑推理场景下效果明显,但对简单问答会引入不必要的延迟,建议根据场景灵活选择模式。
| 模型 | 最低显存 | 推荐硬件 | 精度 |
|---|---|---|---|
| ChatGLM-6B | 6GB | RTX 3090 | INT4 |
| GLM-4-9B | 8GB | RTX 4090 | INT4 |
| GLM-4-9B | 18GB | RTX 4090 | BF16 |
| GLM-4.5-Air | 24GB | A100 40G | FP8 |
| GLM-4.5-Air | ~64GB | 2x A100 | BF16 |
| GLM-4.5 | ~180GB | 8x A100 | FP8 |
| GLM-5 | ~1.5TB | 多节点 | BF16 |
框架支持:
Hugo实践笔记:在实际项目中使用过ChatGLM-6B的P-Tuning v2微调(英伟达T4显卡),在中文客服场景下效果提升明显。但需要注意的是,小模型(6B级)在处理多轮对话和长文本时会出现"遗忘"现象,生产环境建议使用GLM-4-9B以上级别。
GLM-4 All Tools引入的统一工具调用框架是GLM系列Agent能力的里程碑:
用户输入
↓
[意图理解模块] → 判断是否需要使用工具
↓ ↓
生成回答 [工具选择器]
↓
├── Web Browser(网页浏览/搜索)
├── Python Interpreter(代码执行)
├── Image Generation(文生图)
└── User-defined Functions(自定义函数)
↓
[工具执行结果]
↓
[结果融合模块]
↓
生成最终回答
从GLM-4.5开始,Agent能力不再是"附加功能",而是模型设计的核心出发点:
| 能力维度 | GLM-5 | GPT-5 | Claude Opus 4 | DeepSeek V3 |
|---|---|---|---|---|
| 基本问答 | 优 | 优 | 优 | 优 |
| 复杂推理 (Thinking) | 优 | 优★ | 优★ | 优 |
| 代码生成 | 优 | 优★ | 优★ | 优 |
| 多模态输入 | 文本仅 | 全模态 | 全模态 | 文本仅 |
| Agent (Tool Use) | 优★ | 优 | 优★ | 良 |
| 长上下文 (200K) | 优 | 优 | 优★ | 优 |
| 中文能力 | 优★ | 良 | 良 | 优 |
| 幻觉率 | 低★ | 低 | 极低★ | 中 |
| 开源 | ✅ MIT | ❌ | ❌ | ✅ |
| 部署成本 | 高(1.5TB) | - | - | 中(F8) |
(★表示该维度有明显优势)
GLM-5 最强场景:
GLM-4.5 推荐场景:
GLM-4-9B 适合场景:
CodeGeeX:
Thinking模式启用条件:
Non-Thinking模式适用:
Agent场景最佳实践:
# Agent任务建议的message结构
messages = [
{"role": "system", "content": "你是一个精通数据分析的助手。你可以使用Python来处理数据,使用浏览器来搜索信息。"},
{"role": "user", "content": "请分析2025年Q4中国AI市场的趋势数据,生成一份PDF报告"}
]
# 设置thinking=true启用推理模式
智谱AI是当前中国开源力度最大的大模型公司之一:
ChatGLM-6B的GitHub突破41k Stars,是2023年中国社区最受欢迎的开源大模型项目,开创了中国开源大模型社区的先河。
智谱AI在中国AI产业中的地位:
GLM系列的技术演进体现了几个核心设计哲学:
GLM系列的发展方向预示着中国开源大模型的演进趋势:
此页面为 AI 知识体系 的一部分,内容持续更新中。