Mistral AI 是来自法国巴黎的 AI 创业公司,由前 DeepMind 和 Meta 的研究人员于 2023 年创立。Mistral 以高效、开源可定制的 LLM 著称,是欧洲最受关注的 AI 公司之一,其模型以 Mixture of Experts(MoE)架构和开源策略闻名,估值超过 60 亿美元。
Mistral AI 由三位法国 AI 科学家联合创立:
三人之前在 DeepMind 和 Meta 共同推动了大语言模型的研究进展,2023 年决定独立创业,试图打破头部 AI 公司对 AI 技术的垄断。
| 轮次 | 时间 | 金额 | 主要投资者 |
|---|---|---|---|
| 种子轮 | 2023 年 6 月 | €1.05 亿 | Lightspeed Venture Partners |
| A 轮 | 2023 年 12 月 | €3.85 亿 | Andreessen Horowitz |
| B 轮 | 2024 年 6 月 | €6 亿 | General Catalyst, 微软 |
| 战略投资 | 2024 年 2 月 | €1500 万 | 微软(额外投资 + Azure 合作) |
Mistral AI 在短短两年内完成了从种子轮到估值 60 亿美元以上的增长,是欧洲估值最高的 AI 创业公司之一。
Mistral 的公司使命围绕三条原则展开:
Mistral 公开表示:"通过训练我们自己的模型、开放发布并促进社区贡献,我们可以建造一个可信的替代方案来应对正在形成的 AI 寡头垄断。"
Mistral 的多个核心模型采用 MoE(混合专家)架构,这是其最具标志性的技术特征。
MoE 的核心思想:将一个大模型拆分为多个"专家"子网络,每次推理时只激活其中一部分专家。这带来两大好处:
假设一个 MoE 层有 个专家,前 个专家被激活,则:
实际计算中,MoE 模型的推理速度接近同等"激活参数"的稠密模型。
Mixtral 8x7B 有 8 个专家(7B 参数/专家),但每个 token 只激活 2 个专家,激活参数量约 12.9B。这意味着它的推理速度接近 12B 的稠密模型,但综合能力媲美 70B+ 级别的大模型。
Mixtral 8x7B: 总参数量 46.7B / 每 token 激活 ~12.9B
Mixtral 8x22B: 总参数量 141B / 每 token 激活 ~39B
MoE 架构的关键组件是门控网络(Router),它决定每个输入 token 应该路由到哪些专家:
其中 是门控权重矩阵,输出 维的概率分布。Mistral 使用 Top-2 路由,即每个 token 激活概率最高的 2 个专家。
门控网络需要解决负载均衡问题,防止所有 token 都涌向同一个专家。Mistral 在训练时添加辅助损失函数来鼓励均匀路由:
其中 是专家 被选中的频率, 是平均门控概率, 是平衡系数。
Mistral 7B 引入的 滑动窗口注意力 是其核心创新之一,解决了传统 Transformer 中长序列计算量随序列长度平方增长的问题。
传统自注意力中,每个 token 关注序列中所有之前的 token,复杂度为 。滑动窗口注意力限制每个 token 只能关注最近的 个 token,将复杂度降为 。
但滑动窗口的局限是信息不能跨窗口传播。Mistral 的解决方案是堆叠多层,让信息通过层级间传递,实现长距离依赖。如果窗口大小为 ,层数为 ,则有效感受野可达 。
对于 32 层模型若窗口大小为 4096,有效感受野可达 个 token。
为了进一步优化推理效率,Mistral 实现了滚动缓冲区缓存。该机制在缓存键值对(KV Cache)时只保留最近的 个 token 的键值,最早的部分被新的覆盖。这使得缓存大小固定为 ,而不是随序列长度增长。
这意味着即使在处理 32K token 的长序列时,KV Cache 也不会无限制增长,显著降低了长序列推理中的显存开销。
Mistral 的所有开源模型均采用 Apache 2.0 许可证,允许任何人自由使用、修改和商用,没有任何限制。
Mistral 的首个模型,一经发布就震惊业界。73 亿参数的模型在各种基准测试中超越了 Llama 2 13B,并与 Llama 1 30B 相当。
核心规格:
关键创新:
Mistral 7B 在推出时在多项基准上超越了参数量数倍于它的模型,证明了"小模型 + 高效架构"路线的可行性。
Mistral 的第一个 MoE 模型。以 46.7B 的总参数量、12.9B 的激活参数实现了接近 GPT-3.5 的性能。
核心规格:
基准表现:
Mixtral 8x7B 证明了 MoE 架构在小规模模型中的巨大潜力,使"小模型击败大模型"成为现实。
Mixtral 8x7B 的升级版,大幅增加参数量同时保持 MoE 架构,是当时最强的开源 MoE 模型。
核心规格:
基准表现:
Mixtral 8x22B 在当时是开源模型的标杆,许多团队将其部署为本地推理的主力模型,在 2x 消费级 GPU(如双 A6000)上即可运行。
与 NVIDIA 合作开发的 12B 参数模型,以高效推理和长上下文为特色。
核心规格:
特点:
专为代码生成设计的模型系列。
Codestral 22B(v1):
Codestral Mamba(2024 年 7 月):
专为数学推理优化的模型,以 Mistral 7B 为基座微调。
核心规格:
Mathstral 在 MATH 和 GSM8K 等数学基准上表现优异,适合需要复杂数学推理的场景。
Mistral 发布的最具性价比的小模型系列,包含 9 个开放权重模型,按 14B、8B、3B 三个参数量级分为 Base、Instruct、Reasoning 变体。
核心规格:
特点:
轻量级高效模型系列的换代升级,标志着 Mistral 在中小规模模型领域的持续投入。
Mistral Small 3(24B/2025 年 1 月):
Mistral Small 3.1(24B/2025 年 3 月):
Mistral 的旗舰商业模型,面向最复杂的推理任务。
Mistral Large 1(2024 年 2 月):
Mistral Large 2(2024 年 7 月):
Mistral Large 3(2025 年):
面向中等复杂度任务的高性价比商业模型。
Mistral Medium 3:
Mistral 于 2026 年 3 月发布的最新一代高效通用模型,是真正的**"一个模型替代三者"**的产品。
核心规格:
标志性创新:
Mistral Small 4 被称为**"三合一"模型**,因为它将之前三个独立产品的功能合并到了单一模型中:
| 之前的产品 | 功能 | Small 4 统一方案 |
|---|---|---|
| Magistral | 深度推理 | 内置推理模式,自动切换 |
| Pixtral | 多模态视觉 | 原生视觉理解能力 |
| Devstral | Agent 编码 | 原生代码 Agent 能力 |
小型企业不再需要为了不同任务订阅不同的 API,一个模型即可覆盖 90% 以上的场景。
定价:
Mistral 于 2025-2026 年推出的前沿级多模态模型。
核心规格:
特点:
开源代码 Agent 模型,专为生产级软件开发流程设计。
Devstral 2 的小型版本,可在消费级硬件上本地部署。
Mistral 的前沿多模态推理模型,区别于传统 LLM 的"快速思考"模式,Magistral 在回答复杂问题时会进行更深入的推理(类似于 OpenAI o1/o3 的"思考"模式)。
Mistral 的首个音频模型,文本转语音系统,直接对标 ElevenLabs。
核心规格:
Voxtral 是 Mistral 从纯文本/视觉模型向多模态 AI 转型的重要一步。
Mistral AI 的消费者 AI 助手应用,类似 ChatGPT / Claude,提供对话式 AI 体验。
关键里程碑:
核心功能:
Mistral 提供企业级 API 服务,开发者可以通过 API 调用所有商业模型。
API 特点:
主要合作伙伴:
| 平台 | 路由 | 支持的模型 |
|---|---|---|
| Microsoft Azure | Microsoft Azure AI 目录 | Mistral Large, Mistral Small, Codestral |
| Amazon Bedrock | AWS 托管平台 | Mistral Large, Mixtral 8x7B, Mistral 7B |
| Hugging Face | 开源模型分发 | 所有开源模型 |
| Google Cloud | Vertex AI | 部分商业模型 |
| Snowflake | Cortex AI | Mistral 系列 |
Mistral 面向企业的定制化模型训练和部署平台。
Mistral 是极少数同时提供开源模型和商业模型的主流 AI 公司之一。其开源战略对更广泛的 AI 生态产生了深远影响:
Mistral 采取的是分层策略:
| 层级 | 类型 | 代表模型 | 目标用户 |
|---|---|---|---|
| 完全开源 | Apache 2.0 | Mistral 7B, Mixtral 8x7B/8x22B, NeMo | 研究社区、自部署用户 |
| 开放权重 | 可下载但有限制 | Mistral Large 3, Mistral Small 4 | 企业自部署 |
| 商业 API | 闭源 API | Mistral Large 最新版 | 企业云用户 |
这种策略既保持了对开源社区的吸引力,也为商业变现保留了空间,形成了良性循环。
| 维度 | Mistral | Llama(Meta) |
|---|---|---|
| 首发时间 | 2023 年 9 月 | 2023 年 2 月 |
| 核心架构 | MoE(8 专家) | 稠密 Transformer |
| 目标 | 高效推理 | 通用全栈 |
| 开源程度 | Apache 2.0(部分模型) | Llama 社区许可 |
| 欧洲特色 | 强多语言能力 | 主要为英文 |
| 最小模型 | 3B(Ministral) | 8B(Llama 3.2) |
| 最大模型 | 141B(MoE) | 405B(稠密) |
| 维度 | Mistral | GPT(OpenAI) |
|---|---|---|
| 开源 | 部分开源 | 完全闭源 |
| 架构 | MoE + 稠密混合 | 稠密(GPT-4 传闻为 MoE) |
| 多语言 | 欧洲语言优先 | 全面覆盖 |
| 成本 | 显著更低 | 行业最高 |
| 可定制 | 本地微调/部署 | API 定制 |
| 上下文 | 32K - 262K | 128K(GPT-4 Turbo) |
| 维度 | Mistral | Claude(Anthropic) |
|---|---|---|
| 地域 | 欧洲(法国) | 美国 |
| 安全性 | 标准 | 高度注重安全对齐 |
| 推理 | 优秀(MoE 收益) | 极其优秀(Constitutional AI) |
| 长上下文 | 256K 窗口 | 100K - 200K |
| 开源 | 部分开源 | 完全闭源 |
| 代码能力 | 优秀(Codestral) | 极强(Claude Code) |
大规模文本处理(Mistral Large 系列):
代码生成与辅助(Codestral / Devstral):
中等复杂度推理(Mistral Medium / Small 系列):
自部署推理(Mixtral 8x7B / 8x22B):
边缘部署(Ministral 3 / Mistral 7B):
Python 调用 Mistral API:
from mistralai import Mistral
client = Mistral(api_key="YOUR_API_KEY")
response = client.chat.complete(
model="mistral-large-latest",
messages=[
{"role": "system", "content": "你是一个专业的 AI 助手。"},
{"role": "user", "content": "解释 Mixture of Experts 的工作原理。"}
]
)
print(response.choices[0].message.content)
使用 Ollama 运行本地 Mistral 模型:
# 安装 Ollama 后
ollama run mistral # Mistral 7B
ollama run mixtral:8x7b # Mixtral 8x7B
ollama run mixtral:8x22b # Mixtral 8x22B
使用 vLLM 部署 Mixtral:
# 启动 vLLM 推理服务器
vllm serve mistralai/Mixtral-8x22B-Instruct-v0.1 \
--tensor-parallel-size 2 \
--max-model-len 32768
2023-09: Mistral 7B 发布 → 开源震撼业界
2023-12: Mixtral 8x7B 发布 → 首个 MoE 模型,超越 Llama 2 70B
2024-02: Mistral Large 发布 → 首个商业旗舰模型
2024-04: Mixtral 8x22B 发布 → 最强开源 MoE 模型
2024-05: Codestral 22B 发布 → 代码生成专用模型
2024-06: 完成 €6 亿 B 轮融资
2024-07: Mistral Large 2 / NeMo / Mathstral 发布
2024-07: Codestral Mamba 发布 → 首个 Mamba 架构模型
2025-01: Mistral Small 3 发布 → 24B 高效模型
2025-03: Mistral Small 3.1 发布 → 增加视觉能力
2025-06: Ministral 3 系列发布 → 小模型全家桶
2025-12: Magistral Medium 1.2 发布 → 推理增强模型
2025-: Mistral Large 3 发布 → 旗舰开放权重
2025-: Mistral Medium 3.5 发布 → Agent 优化模型
2026-03: Mistral Small 4 发布 → 119B 三合一模型
2026-03: Voxtral TTS 发布 → 首个音频模型
截至 2026 年,Mistral AI 已建立起清晰的市场定位: