月之暗面(Moonshot AI)旗下的 Kimi 大模型系列,以超长上下文处理能力、强化学习推理能力和 Agent 集群技术著称,是中国大模型领域的领军力量之一。本文全面梳理 Kimi 系列的技术演进、架构创新、核心能力与工程实践。
Kimi 是由月之暗面(Moonshot AI)开发的大语言模型系列。月之暗面成立于 2023 年 3 月,由前清华大学"姚班"高材生、卡内基梅隆大学(CMU)语言技术研究所(LTI)博士杨植麟创立。公司以"长文本无损上下文"技术为起点,逐步构建了涵盖对话、推理、多模态和 Agent 的完整模型矩阵,与 DeepSeek 并称为"中国 AI 开源双子星"。
杨植麟学术背景深厚:本科师从清华大学 IEEE Fellow 唐杰,2015 年以年级第一名毕业;博士期间师从知名学者 Ruslan Salakhutdinov 与 William Cohen,曾与图灵奖得主 Yoshua Bengio 合作发布"火锅问答"数据集 HotpotQA,以一作身份发表 XLNet,在 ICLR、NeurIPS、ICML、ACL 等顶会发表论文 20 余篇。这段学术经历使他对 Transformer 架构、自注意力机制和强化学习有极深的理解,为 Kimi 的技术路线奠定了理论基础。
Kimi 系列的核心技术路线可归纳为三个维度的协同推进:Token 效率(优化每一 token 的计算价值)、长上下文(扩展模型的记忆窗口)、智能体集群(让模型自主协作完成复杂任务)。杨植麟在 2026 年英伟达 GTC 大会上指出,当前的 Scaling 已不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果这三个维度的技术增益能够相乘,模型将表现出远超现状的智能水平。他进一步判断,智能的发展方向将从单智能体向动态生成的集群进化。
| 时间 | 里程碑 | 意义 |
|---|---|---|
| 2023 年 3 月 | 月之暗面成立 | 创始团队来自清华、CMU、Google、Meta、Amazon 等顶级机构 |
| 2023 年 10 月 | 发布 Kimi Chat | 支持 20 万汉字无损上下文输入,为当时全球产品化大模型中最长 |
| 2023 年 11 月 | 开放 API 平台 | 面向开发者的接口正式上线 |
在 Kimi 发布时,竞品的长文本能力对比:
Kimi 以近 3 倍于 Claude、8 倍于 GPT-4 的上下文长度,一鸣惊人。月之暗面抓住了当时业界普遍存在的一个痛点——大模型输入长度普遍较低,严重制约了技术落地。例如虚拟角色会"忘记"重要信息,Agent 无法获得全面输入导致运行失败,游戏产品被迫简化剧情等。杨植麟将大模型比作计算机,上下文则是计算机的"内存"——仅靠参数规模("算力")是不够的,必须有足够大的"内存"才能真正释放模型价值。
| 时间 | 里程碑 | 关键信息 |
|---|---|---|
| 2024 年 3 月 | 上下文提升至 200 万字 | 20万字→200万字,5 个月提升 10 倍 |
| 2024 年 4 月 | 支持语音输入 | C 端体验升级 |
| 2024 年 5 月 | Kimi+ 智能体平台上线 | 领域专家 Agent |
| 2024 年 7 月 | Context Caching 上线 | 成本优化,缓存命中输入价降至 1/4 |
| 2024 年 6 月 | Kimi Researcher 发布 | 深度研究 Agent 产品化 |
2024 年 3 月的 200 万字突破是 Kimi 真正的"破圈"时刻。月之暗面没有走渐进式提升路线,而是直接从 20 万字跃迁到 200 万字,技术难度指数级增加。团队从模型预训练到对齐、推理环节全部进行了原生的重新设计和开发,不走"滑动窗口"、"降采样"等捷径。月之暗面 AI Infra 负责人许欣然在现场演示中,拿出了一本全本《倚天屠龙记》,A4 纸打印、叠起来几乎有一瓶 350ml 纯净水的一半高(约 100 万字),外加一整《甄嬛传》剧本——Kimi Chat 可以一次吃掉这两者。
这次升级让 Kimi 在国内热度急速攀升。根据 SimilarWeb 数据,Kimi 在 2024 年 2 月的访问量达 305 万,较上个月增长 107.6%,几乎成倍增长;到 3 月访问量达 225 万(四周滚动)。在二级市场中,甚至出现了"Kimi 概念股"板块,国内第一次因一家创业公司而发酵出行情。
| 时间 | 里程碑 | 意义 |
|---|---|---|
| 2025 年 1 月 | Kimi k1.5 发布 | 多模态思考模型,达到 OpenAI o1 正式版水平 |
| 2025 年 7 月 | Kimi K2 发布并开源 | 登顶全球开源榜单 |
| 2025 年底 | K2 系列转向 MoE 架构 | 为万亿参数模型铺路 |
Kimi k1.5 的发布是月之暗面在推理能力上的里程碑。与 DeepSeek R1 同期(几乎同一天)发布,两者均通过强化学习训练推理模型。但 k1.5 的热度被 R1 盖过,原因主要是 DeepSeek 做了更彻底的开源而 Kimi 当时仅发布了技术报告。不过,k1.5 的技术报告《Kimi k1.5: Scaling Reinforcement Learning with Large Language Models》(25 页)被认为是业界最有价值的 RL 参考之一——相比 R1 论文,k1.5 在 RL 数据构建、训练基础设施、Long2Short 迁移等方面给出了可复现的具体方案。对于算法工程师和研究人员来说,k1.5 报告的可操作性和细节丰富度实际上高于 R1。
| 时间 | 里程碑 | 意义 |
|---|---|---|
| 2026 年 1 月 27 日 | Kimi K2.5 发布 | 1.04T MoE(激活 32B),全开源,原生多模态 |
| 2026 年 3 月 18 日 | 杨植麟 GTC 2026 演讲 | 首次系统披露技术路线图 |
| 2026 年 4 月 13 日 | Kimi K2.6 Code Preview 发布 | 代码+Agent 深度优化,支持千级智能体集群 |
| 2026 年 Q2 | 完成约 20 亿美元融资 | 投后估值约 200 亿美元,ARR 突破 2 亿美元 |
| 2026 年 Q2 | 国产芯片适配推进 | K2.6 开始支持国产芯片混合推理 |
K2.5 是月之暗面迄今为止"最全能"的模型,以静默推送的方式完成了一次重磅升级——用户在官网聊天时就已经用上了新模型。该模型全开源,在 Agent、代码、图像、视频及一系列通用智能任务上取得开源 SOTA 表现。
这是 Kimi 的立身之本,也是其最核心的技术差异化能力。
杨植麟认为,"所有问题都是文本长度的问题。如果你有 10 亿的 context length,今天看到的问题都不是问题"。从 word2vec 到 RNN、LSTM,再到 Transformer,历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。
关键认识:绝对的长度是花架子,无损压缩的能力才是分胜负的关键。 上下文长度在提升过程中必须兼顾长度和无损压缩水平两个指标,才能有意义的规模化。不能只追求单一指标(今天能处理几百万还是多少亿字符的上下文没有意义),更要看在这个窗口下实现的推理能力、对原始信息的忠实度和指令遵循能力。
业界在提升上下文长度时常用的"捷径"方案:
Kimi 选择了一条更困难的路:在千亿参数下实现无损长程注意力机制,不依赖上述任何捷径方案。
训练层面的挑战:
推理层面的挑战:
解决方案:
Kimi 在 Needle-in-a-Haystack(大海捞针)长文本评测中,256K tokens 范围内召回率稳定。这意味着在处理长达 256K 的输入时,模型仍能准确找到嵌入其中的关键信息。相比之下,一些宣称支持 1M 上下文的模型在实际测试中,200K 之后性能就开始明显衰减。
200 万字的上下文打开了许多新的 AI 应用场景:
Kimi k1.5 是月之暗面在推理能力上的重大突破,与 DeepSeek R1 同期发布,标志着中国 AI 企业成为全球除 OpenAI 之外首批达到 o1 级别推理水平的团队。
预训练 → SFT → Long-CoT SFT → 强化学习(RL)→ Long2Short
第一阶段:视觉-语言预训练
第二阶段:冷却阶段
第三阶段:长上下文激活
在 RL 训练之前,模型通过 Long-CoT SFT 学习生成详细的推理路径。与普通拒绝采样不同,此阶段专注于生成长链推理路径,帮助模型掌握规划、评估、反思、探索等人类推理策略。具体包括:
① 策略优化算法
Kimi k1.5 采用在线镜像下降(Online Mirror Descent)变体进行策略优化。与传统 RLHF 方法不同:
从数学角度理解,k1.5 的优化目标是最大化 response 的 reward,同时通过 KL 正则化约束策略更新的幅度:
其中 在答案正确时返回正奖励, 为响应长度, 为惩罚系数。本质上是在最大化正确答案概率的同时,鼓励模型生成更简洁的推理路径。
关键 insight:k1.5 将推理过程视为搜索树构建过程,模型通过自回归预测在推理空间中进行隐式搜索,而非依赖 MCTS(蒙特卡洛树搜索)或 PRM(过程奖励模型)。每一次 token 预测都是一次隐式的搜索决策。
② 部分滚动(Partial Rollout)
处理长思维链的关键技术:
③ 混合部署框架
训练和推理阶段的资源切换是 RL 训练中的核心工程难题。k1.5 利用 Kubernetes Sidecar 容器共享 GPU 资源:
性能数据:
现有框架难以同时支持的特性:
④ RL 数据构建
高质量 prompt 集的构建标准:
知识库构建还包含多模态数据的精心策划:
⑤ 采样策略
⑥ 长度惩罚与过度思考
在训练过程中,模型表现出过度思考(Overthinking)现象——响应长度显著增加。虽然这在一定程度上提升了性能,但过长的推理过程增加了训练和推理成本,且不符合人类偏好。解决方案:
⑦ Long2Short 技术
这是 k1.5 短链推理超越 GPT-4o 和 Claude 3.5 Sonnet 的核心原因。自 o1 发布后,业界都知道增加 test-time compute 能提高推理效果,但 long-CoT 消耗大量 token 预算和时间。k1.5 探索了四种将 long-CoT 先验迁移到 short-CoT 的方法:
| 任务 | k1.5 Long-CoT | k1.5 Short-CoT | 对比结论 |
|---|---|---|---|
| MATH-500 | 96.2 EM | 94.6 EM | 超越 OpenAI o1 |
| AIME 2024 | 77.5 Pass@1 | 60.8 Pass@1 | 短链遥遥领先于 DeepSeek-V3(39.2) |
| Codeforces | 94 Percentile | - | 与 o1 持平 |
| LiveCodeBench | - | 47.3 | 超越 GPT-4o 和 Claude 3.5 Sonnet |
| MathVista | 74.9 | - | 多模态推理领先 |
2026 年 1 月发布的 Kimi K2.5 是月之暗面迄今最全能的模型。
| 参数 | 值 |
|---|---|
| 总参数量 | 1.04 万亿(1.04T) |
| 激活参数 | 32B |
| 架构 | MoE(混合专家) |
| 上下文 | 256K tokens |
| 模态 | 原生文本+图像+视频 |
| 开源状态 | 全开源 |
原生多模态:K2.5 是 Moonshot 将视觉能力从 k1.5 整合进主线旗舰的第一代。采用 MoonViT 视觉编码器原生处理图像与视频输入。"看图 + 长文档"的组合——例如将一份图文混排的 PDF 做分析——整体效果在国产模型中处于顶级水平。
思考与非思考双轨运行:
Agent Swarm 架构:
SWE-Bench Verified:76.8%,代码能力进入国产模型第一梯队。
2026 年 4 月发布的代码专项模型,基于 K2.5 分支优化版本,通过 Kimi Code 订阅内测开放。
大型代码库的跨文件重构与 code review。优势在于"先看完再动手"——例如拿到一个几十个文件的服务端项目,找出所有不符合最新 API 规范的调用点并统一修改,或者做一次全模块安全审计。这不是 LeetCode 风格的独立函数生成(那种场景用 Claude/GPT 就够了),而是"需要先理解整体,再精准修改"的任务。
K2.6 的最大亮点是千级智能体协作(Agent Swarm)。Moonshot 演示了一个自主运行 5 天 的 Agent 案例,全程负责监控、事件响应与系统运维,展现持久上下文记忆、多线程任务处理和完整闭环执行能力。
实际案例一:K2.6 在无人工介入的情况下耗时 10 小时从零构建完整的 SysY 编译器(类 C 的简化教学语言),通过 140 项功能测试。Moonshot 估算相当于 4 名工程师两个月的工作量。
实际案例二:K2.6 自动识别洛杉矶 30 家尚未拥有官网的餐厅,为每家餐厅自动生成包含预订功能的落地页,信息与数据库无缝同步。
月之暗面在 Agent 路线上选择了与主流不同的方向:将 Agent 能力内化到模型本身,而非通过 LangChain、AutoGen 等框架编排。
核心认知:Agent 不是"缝合怪",Agent 就是模型。传统方案通过 API 搭 Workflow 只能拿到 Workflow 增益;只有让 Agent 能力进入模型本身,才能实现质的突破。
Kimi Researcher:2024 年 6 月发布的深度研究 Agent,通过端到端强化学习将 Agent 能力内化。模型需要学会:
Agent 技术特色:
Kimi API 完全兼容 OpenAI SDK 协议,与 DeepSeek 一样只需修改 base_url 和 api_key:
from openai import OpenAI
client = OpenAI(
api_key="your_kimi_api_key",
base_url="https://api.moonshot.cn/v1"
)
response = client.chat.completions.create(
model="kimi-k2.5",
messages=[{"role": "user", "content": "分析这份300页的合同"}]
)
| 使用场景 | 推荐模型 | 备注 |
|---|---|---|
| 通用对话、长文档分析 | kimi-k2.5 |
默认选择 |
| 大型代码库重构、Code Review | kimi-k2.6-code-preview |
代码专项优化,需内测资格 |
| 数学推理、复杂规划 | kimi-k2-thinking |
思考模式,多消耗 30-50% tokens |
Kimi 长上下文的正确用法——完整文档直接输入,无需 RAG 分块:
# 完整读取PDF文本
import PyPDF2
def extract_text_from_pdf(pdf_path):
text = ""
with open(pdf_path, "rb") as f:
reader = PyPDF2.PdfReader(f)
for page in reader.pages:
text += page.extract_text()
return text
# 通过Prompt Cache复用上下文
response = client.chat.completions.create(
model="kimi-k2.5",
messages=[
{"role": "system", "content": "你是一个合同审查专家"},
{"role": "user", "content": f"请审查以下合同,标注所有风险:\n\n{extract_text_from_pdf('contract.pdf')}"}
]
)
利用 Context Caching 优化重复调用:
# 同一份文档多次询问不同问题
# 第一次请求会完整加载并缓存
response1 = client.chat.completions.create(
model="kimi-k2.5",
messages=[{"role": "user", "content": f"读取文档:{doc}\n\n问题:总结核心条款"}],
extra_headers={"X-Moonshot-Cache": "enabled"}
)
# 后续请求命中缓存,输入成本降至 1/4
response2 = client.chat.completions.create(
model="kimi-k2.5",
messages=[{"role": "user", "content": f"读取文档:{doc}\n\n问题:风险点有哪些?"}],
extra_headers={"X-Moonshot-Cache": "enabled"}
)
K2.5 API 参考定价:
| 参数 | 价格 |
|---|---|
| 标准输入 | $0.60/1M tokens |
| 输出 $3.00/1M tokens | |
| 缓存命中输入 | $0.10-0.15/1M tokens |
Tier 限流机制是 Moonshot 独特的设计,按累计充值金额动态升级:
重要:限流在"用户层级"而非 Key 层级。即使开 10 把 Key,合起来共享同一 Tier 配额。靠多 Key 绕限流的路在 Kimi 走不通。
实战建议:
Kimi K2.5/K2.6 对 Tool Calling 的实战经验:
search_xxx、fetch_xxx 比 xxx_handler 识别率更高| 产品 | 渠道 | 特点 |
|---|---|---|
| Kimi Chat | Web、iOS、Android、小程序 | C 端智能助手,免费+付费 |
| Kimi+ | Kimi Chat 内置 | 领域专家 Agent |
| Kimi API | platform.moonshot.ai | 开发者接口 |
| Kimi Code | 订阅制 | 代码专项版本,含 K2.6 |
| Kimi Researcher | Kimi Chat | 深度研究 Agent |
月之暗面是中国大模型创业公司中融资最成功的企业之一:
Kimi K2、K2.5 全开源,是中国开源万亿参数模型的先驱。中国 AI 社区中,Kimi 和 DeepSeek 形成了独特的"技术交叉"现象:
两家公司还在同时推进国产芯片适配:DeepSeek V4 支持华为昇腾 950;Kimi K2.6 也开始支持国产芯片混合推理。
| 维度 | Kimi | DeepSeek | GPT-4o | Claude 4 |
|---|---|---|---|---|
| 上下文长度 | 256K tokens 稳定 | 128K-1M | 128K | 200K |
| 架构 | MoE 1.04T (32B active) | MoE 多版本 | Dense | Dense |
| 推理模型 | k1.5 (RL-based) | R1 (RL-based) | o1/o3 | Opus 4 |
| 多模态 | 原生(K2.5+) | 文本为主 | 原生 | 原生 |
| Agent | 原生集群(K2.5+) | 框架层 | API 层 | API 层 |
| 开源 | 全开源 | 全开源 | 闭源 | 闭源 |
| 价格 | 中等 | 极低(约 1/10) | 高 | 高 |
一次性分析 300 页以上 PDF 合同、招股书、学术论文、法律文书,支持自然语言查询和多文件筛选。
Kimi 的 256K 稳定上下文意味着:
这些在 Kimi 上都是"原生支持"的,无需 RAG 分块或滑动窗口。
一次性载入数万行代码做整体分析,跨文件跨模块理解业务逻辑。适合:
数十甚至上百步的复杂操作链路,并行调度 100-1000 个子 Agent:
MoonViT 编码器 + 长上下文的组合,特别适合:
Kimi 系列以"长上下文"立身,通过持续的技术创新,逐步构建了涵盖对话(Kimi Chat)、推理(k1.5)、多模态开源旗舰(K2.5)、代码专项(K2.6)、Agent 集群的完整技术生态。其核心竞争壁垒在于:
海外开发者社区将 Kimi 系列定位为"专门做长文档分析、大型代码库理解、多轮深度 Agent"的选手。如果应用场景是低并发、长上下文、复杂 Agent、代码库理解,Kimi 是当前中国模型市场中最值得考虑的选择之一。
此页面为 AI 知识体系 的一部分,内容持续更新中。