Qwen(通义千问)是阿里巴巴集团旗下阿里云智能推出的开源大语言模型系列。自 2023 年首次发布以来,Qwen 系列经历了 Qwen → Qwen1.5 → Qwen2 → Qwen2.5 的快速迭代,在数学推理、代码生成、多模态理解等多项能力上达到甚至超越同规模闭源模型的水平,是目前开源社区活跃度最高、生态最完善的中文大模型系列之一。
Qwen 系列的核心定位是开源且全能——阿里云坚持 Qwen 全系列开源(包括模型权重、推理代码和训练框架),同时覆盖语言、视觉、代码、音频、数学等多个领域,形成了完整的模型矩阵。
| 时间 | 版本 | 关键特性 |
|---|---|---|
| 2023-08 | Qwen (v1) | 7B/14B 双尺寸,首个开源版本 |
| 2023-09 | Qwen-VL / Qwen-Audio | 多模态扩展,视觉和音频理解 |
| 2024-02 | Qwen1.5 | 改进的 tokenizer、ChatML 格式、支持更多尺寸(0.5B~72B) |
| 2024-04 | Qwen2-72B | 首个 MoE 架构,扩展上下文到 128K tokens |
| 2024-06 | Qwen2.5 | 全面升级,支持 32K/128K 上下文,改进数学和代码能力 |
| 2024-09 | Qwen2.5-Coder | 专用代码模型,CodeQwen1.5 的大幅升级 |
| 2024-11 | QwQ-32B-Preview | 首个开源推理模型,展示深度思考能力 |
| 2025-01 | Qwen2.5-Max | MoE 架构旗舰,Qwen 系列性能天花板 |
| 2025-03 | QwQ-32B | 开源推理模型的里程碑,强于同尺寸 DeepSeek-R1-Distill,逼近满血版 R1 |
| 2025-04 | Qwen3 | 全新一代,235B MoE 旗舰,深度思考与快速响应双模式 |
Qwen 系列整体采用经典的 Decoder-only Transformer 架构,但在多个关键组件上做了优化改进:
Qwen2-MoE 引入混合专家架构,关键设计如下:
MoE 架构的数学表示:
对于每个输入 token ,MoE 层的输出为:
其中 是路由门控输出,通过 Top-K 选择激活的专家:
Qwen2.5-Max 和 Qwen3 在 MoE 架构基础上进一步改进:
| 模型 | 参数量 | 上下文长度 | 架构 | 亮点 |
|---|---|---|---|---|
| Qwen-7B | 7B | 8K | Dense | 首个开源版本,支持中英文双语 |
| Qwen-14B | 14B | 8K | Dense | 更大容量,性能更强 |
| Qwen1.5-0.5B~72B | 0.5B~72B | 32K | Dense | 多尺寸覆盖,ChatML 格式 |
| Qwen2-0.5B~72B | 0.5B~72B | 32K/128K | Dense/MoE | 首次引入 MoE (72B) |
| Qwen2.5-0.5B~72B | 0.5B~72B | 32K/128K | Dense/MoE | 全面增强数学、代码和指令遵循能力 |
| Qwen2.5-Max | ~240B MoE | 128K | MoE | Qwen 2.5 系列旗舰 |
| Qwen3-235B | 235B MoE | 128K | MoE | 全新一代,深度思考模式 |
除了通用语言模型,Qwen 系列还推出了多个专用变体:
Qwen-VL(视觉语言模型):
Qwen-Audio(音频模型):
Qwen-Coder(代码模型):
QwQ(推理模型):
Qwen 系列使用基于 BPE(Byte Pair Encoding)的 tokenizer,关键设计决策:
<|im_start|> 和 <|im_end|> 标记对话轮次(ChatML 格式),支持 <|fim_begin|> 等代码补全标记ChatML 格式格式示例:
<|im_start|>system
你是通义千问,由阿里云开发的人工智能助手。
<|im_end|>
<|im_start|>user
请解释 Attention 机制。
<|im_end|>
<|im_start|>assistant
Attention 机制的核心思想是...
<|im_end|>
Qwen 系列的训练数据经历了从 2T 到 18T tokens 的跨越式增长:
训练策略的演进:
监督微调(SFT):
人类反馈强化学习(RLHF):
Distillation:
Qwen 系列在推理效率方面做了大量优化:
KV Cache 优化:
Flash Attention:
vLLM/tgi/SGLang 完善支持:
量化方案:
Qwen 的开源策略是其成功的关键因素之一,与 DeepSeek 一起被视为中文大模型开源的两面旗帜。
Qwen 全系列开源内容包括:
Qwen 在 HuggingFace 上的影响力:
作为阿里云旗下的模型平台,ModelScope 是 Qwen 在中国大陆地区的核心分发渠道:
| 版本 | 许可类型 | 商业使用 | 注意事项 |
|---|---|---|---|
| Qwen v1 | Apache 2.0 | ✅ 免费 | |
| Qwen1.5 | Apache 2.0 | ✅ 免费 | |
| Qwen2 | 自定义(Qwen License) | ✅ 免费 | 月活低于 1 亿免费,超过需申请 |
| Qwen2.5 | 自定义(Qwen License) | ✅ 免费 | 同上 |
| Qwen3 | 自定义(Qwen License) | ✅ 免费 | 同上 |
注意:虽然 Qwen License 有月活 1 亿的门槛,但这对于绝大多数企业应用来说不会构成限制。DeepSeek 和 Qwen 的开源策略共同推动了 2024-2025 年中国大模型开源生态的繁荣。
以下是在关键基准上的 Qwen2.5 系列表现(带"✅"的为同尺寸开源最佳):
| 模型 | MMLU (5-shot) | GSM8K | HumanEval | BBH |
|---|---|---|---|---|
| Qwen2.5-0.5B | 50.1 | 42.5 | 17.1 | 20.3 |
| Qwen2.5-1.5B | 62.5 | 72.4 | 51.8 | 38.5 |
| Qwen2.5-7B | 73.8 | 86.7 | 80.5 | 63.4 |
| Qwen2.5-14B | 78.2 | 91.4 | 85.4 | 71.3 |
| Qwen2.5-32B | 82.1 | 93.5 | 88.7 | 76.8 |
| Qwen2.5-72B | ✅ 85.4 | ✅ 95.2 | 91.0 | ✅ 84.5 |
| Qwen2.5-Max | ~87 | ~96.1 | ✅ 92.5 | ~86.2 |
| 基准 | Qwen2.5-VL-7B | Qwen2.5-VL-72B |
|---|---|---|
| MMMU (val) | 64.3 | 72.7 |
| MathVista | 68.1 | 76.3 |
| DocVQA | 90.2 | 93.8 |
| ChartQA | 83.5 | 87.1 |
| 基准 | QwQ-32B | DeepSeek-R1-Distill-Qwen-32B | DeepSeek-R1 (671B) |
|---|---|---|---|
| AIME 2024 | 79.5 | 72.6 | 79.8 |
| MATH-500 | 96.3 | 94.3 | 97.3 |
| GPQA | 65.1 | 61.3 | 71.5 |
| LiveCodeBench | 51.3 | 45.2 | 55.7 |
QwQ-32B 在 AIME 上仅以 0.3 分差距落后于 DeepSeek-R1 满血版,但参数规模仅为后者的 1/20,充分体现了 Qwen 系列在强化学习训练推理能力方面的技术突破。
Qwen2.5 系列是 Ollama 生态中部署最广泛的中文模型之一:
# 安装后直接拉取
ollama pull qwen2.5:7b
ollama pull qwen2.5:32b
# 代码专用模型
ollama pull qwen2.5-coder:7b
ollama pull qwen2.5-coder:14b
# 推理模型
ollama pull qwq:32b
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
messages = [
{"role": "system", "content": "你是通义千问,一个有用且无害的AI助手。"},
{"role": "user", "content": "解释一下 Transformer 架构的核心创新。"},
]
text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
output = model.generate(
**inputs, max_new_tokens=512, temperature=0.7
)
response = tokenizer.decode(output[0][len(inputs[0]):], skip_special_tokens=True)
print(response)
from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct", max_model_len=8192)
sampling_params = SamplingParams(temperature=0.7, max_tokens=512)
prompts = [
"请解释 Transformer 的注意力机制。",
"用 Python 实现快速排序算法。",
]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
print(output.outputs[0].text)
Qwen 模型微调的推荐方案:
LoRA(Low-Rank Adaptation):
from peft import LoraConfig, get_peft_model
lora_config = LoraConfig(
r=16,
lora_alpha=32,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)
推荐的微调参数:
| 维度 | Qwen 系列 | LLaMA 系列 |
|---|---|---|
| 中文能力 | ⭐⭐⭐⭐⭐ 原生中文优化 | ⭐⭐⭐ 需中文微调 |
| 多语言支持 | ⭐⭐⭐⭐⭐ 29 种语言 | ⭐⭐⭐⭐ 主要支持英语 |
| 推理效率 | ⭐⭐⭐⭐ GQA 优化 | ⭐⭐⭐⭐ GQA (LLaMA 2/3) |
| 社区生态 | ⭐⭐⭐⭐ HuggingFace + ModelScope | ⭐⭐⭐⭐⭐ 全球最大 |
| 许可友好 | ⭐⭐⭐⭐ 商业可用 | ⭐⭐⭐ LLaMA 2/3 许可限制 |
| 代码能力 | ⭐⭐⭐⭐⭐ 专用 Coder 模型 | ⭐⭐⭐⭐ Code LLaMA |
| 维度 | Qwen | DeepSeek |
|---|---|---|
| 推理能力 | ⭐⭐⭐⭐ QwQ 系列强 | ⭐⭐⭐⭐⭐ R1 系深远领先 |
| 多模态 | ⭐⭐⭐⭐⭐ Qwen-VL 系最完善 | ⭐⭐⭐ DeepSeek-VL2 较弱 |
| 模型尺寸备选 | ⭐⭐⭐⭐⭐ 0.5B~235B 全覆盖 | ⭐⭐⭐ 以 7B/67B 为主 |
| 社区活跃度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 代码能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| API 价格 | ⭐⭐⭐ 万字 ¥0.02 (Qwen-Max) | ⭐⭐⭐⭐⭐ 极致性价比 |
在开源与闭源的对比中,Qwen2.5-72B-Instruct (开源免费) vs GPT-4o (闭源收费):
| 维度 | Qwen2.5-72B | GPT-4o |
|---|---|---|
| 中文理解 | 接近平手 | 略优 |
| 英文推理 | 约 90% | 基准 |
| 代码生成 | 约 92% | 基准 |
| 数学推理 | 约 93% | 基准 |
| 多模态 | 约 85% | 基准 |
| 推理速度 | ✅ 可私有部署 | API 延迟 |
| 成本 | ✅ 免费开源 | 按量计费 |
| 隐私安全 | ✅ 完全私有化 | 数据上传 |
阿里云百炼(Bailian)是 Qwen 的唯一官方 API 服务,提供:
价格参考(2025 年):
| 模型 | 输入 (per 1K tokens) | 输出 (per 1K tokens) |
|---|---|---|
| Qwen-Max | ¥0.02 | ¥0.02 |
| Qwen2.5-72B | ¥0.008 | ¥0.008 |
| Qwen2.5-7B | ¥0.001 | ¥0.001 |
阿里云还推出了 ModelScope Agent 框架,基于 Qwen 构建智能体应用:
Qwen 系列是当今开源大模型生态中最重要的玩家之一。从参数规模 0.5B 到 235B 的完整模型矩阵、从纯语言到视觉语言再到推理模型的全面能力覆盖、从 Apache 2.0 到商业友好的许可策略,Qwen 已经建立了完整的开源大模型生态。
对于中文开发者而言,Qwen 是最值得关注的开源模型系列之一——它既有媲美闭源模型的能力(Qwen2.5-72B、Qwen2.5-Max),又有开箱即用的友好体验,还有阿里云生态的完整工具链支持。随着 QwQ 推理模型的推出,Qwen 系列在推理能力上迈出了重要一步,预示着下一代开源模型的正面对决将从通用能力转向推理和 Agent 能力。