这个目录用于系统整理 AI 相关的核心概念、技术原理和工程实践。
面向对象:技术管理者、架构师、开发者。
| 主题 | 路径 | 说明 |
|---|---|---|
| [[LLM 大语言模型]] | tech/ai/llm | Transformer、Token、Prompt、主流模型对比 |
| [[MCP 模型上下文协议]] | tech/ai/mcp | 为什么需要 MCP、架构设计、与 Function Calling 的区别 |
| [[Skill 技能系统]] | tech/ai/skill | Skill 的定义、组成、编写规范、实际案例 |
| [[Vibe Coding 工具概念对比]] | tech/ai/vibe-coding-concepts | Skill/Command/Rule/Workflow 在 Cursor/Claude/Copilot 等工具中的异同 |
现代 AI 应用的技术栈可以划分为四个层次,每个层次都有其核心组件和关键技术决策点。
┌─────────────────────────────────────────────────────────────┐
│ 应用层:ChatBot、Agent、Copilot、RAG、Code Assistant │
│ · 用户交互界面 · 多轮对话管理 · 任务编排 · 结果呈现 │
├─────────────────────────────────────────────────────────────┤
│ 协议层:MCP、Function Calling、Tool Use、A2A │
│ · 模型与外部世界的桥梁 · 标准化工具调用 · 上下文管理 │
├─────────────────────────────────────────────────────────────┤
│ 模型层:GPT、Claude、Gemini、LLaMA、DeepSeek │
│ · 预训练 · 对齐 · 推理优化 · 量化部署 │
├─────────────────────────────────────────────────────────────┤
│ 基建层:向量数据库、推理框架、GPU集群、数据管道 │
│ · 训练/推理基础设施 · 存储与检索 · 监控与运维 │
└─────────────────────────────────────────────────────────────┘
应用层(Application Layer)
应用层是用户直接接触的部分,决定了 AI 能力的最终交付形态。常见形态包括:
应用层的核心设计挑战包括:
协议层(Protocol Layer)
协议层是连接模型能力与外部世界的标准化接口,是 AI 工程化的关键基础设施。
协议层的选型考量:
模型层(Model Layer)
模型层是整个技术栈的核心,决定了系统的能力上限。
基建层(Infrastructure Layer)
基建层支撑模型的训练、部署和运维。
Transformer 是现代 LLM 的基础架构,由 Vaswani 等人在 2017 年提出。核心创新在于自注意力机制(Self-Attention),解决了 RNN/LSTM 的序列处理瓶颈。
自注意力机制的核心思想:
对于输入序列中的每个位置,计算它与序列中所有其他位置的关联权重,然后基于这些权重聚合信息。数学表达为:
Attention(Q, K, V) = softmax(QK^T / √d_k) · V
其中 Q(Query)、K(Key)、V(Value)是输入的三种线性变换,d_k 是维度缩放因子。
多头注意力(Multi-Head Attention):
将注意力机制并行化多次(通常为 8-128 个头),每个头学习不同的关注模式,最后拼接结果。这让模型能同时捕捉不同层面的语义关系。
位置编码(Positional Encoding):
由于注意力机制本身不具备序列顺序感知能力,需要显式注入位置信息。常见方案:
现代 LLM 的训练通常分为三个阶段:
阶段一:预训练(Pre-training)
在大规模无标注文本上训练,学习目标通常是下一个 token 预测(Causal LM)或掩码预测(Masked LM)。
阶段二:监督微调(SFT, Supervised Fine-Tuning)
使用高质量的人工标注对话数据,将预训练模型调整为对话助手。
阶段三:对齐(Alignment)
通过人类反馈强化学习(RLHF)或直接偏好优化(DPO),使模型输出符合人类价值观。
Token 是模型处理文本的最小单位。理解 token 对 Prompt 工程和成本控制至关重要。
分词算法:
中文 Token 特点:
Token 计数的影响:
Prompt 是与 LLM 交互的核心技能。优秀的 Prompt 设计能显著提升输出质量。
ReAct 模式(Reasoning + Acting):
Thought: 我需要先查找相关信息
Action: search("关键词")
Observation: 搜索结果...
Thought: 基于这些信息,我可以得出结论
Final Answer: 最终答案
结构化输出:
要求模型以 JSON、Markdown 表格等结构化格式输出,便于后续处理。
Self-Consistency:
对同一问题生成多个答案,通过投票或聚合提高准确性。
Tree of Thoughts:
将推理过程建模为搜索树,在每个节点评估多个思路,选择最优路径。
RAG 是解决模型幻觉和知识时效性的关键技术。
用户查询 → 查询理解 → 检索模块 → 重排序 → 上下文组装 → LLM 生成 → 后处理
↓
向量数据库 / 搜索引擎
文档处理管道:
检索策略:
高级 RAG 技术:
Agent 是能自主规划、调用工具、执行多步骤任务的智能体。
┌─────────────────────────────────────────┐
│ 规划模块(Planning) │
│ · 任务分解 · 策略选择 · 反思修正 │
├─────────────────────────────────────────┤
│ 记忆模块(Memory) │
│ · 短期记忆(对话上下文) │
│ · 长期记忆(知识库、经验) │
├─────────────────────────────────────────┤
│ 工具模块(Tools) │
│ · 函数调用 · API 集成 · 代码执行 │
├─────────────────────────────────────────┤
│ 执行模块(Action) │
│ · 工具调用 · 结果观察 · 状态更新 │
└─────────────────────────────────────────┘
| 框架 | 特点 | 适用场景 |
|---|---|---|
| LangChain | 生态最丰富,组件化设计 | 快速原型、复杂流程 |
| LlamaIndex | 专注 RAG 和数据连接 | 知识库问答、文档处理 |
| AutoGen | 多 Agent 协作 | 复杂任务分解、团队模拟 |
| CrewAI | 角色扮演驱动 | 业务流程自动化 |
| OpenClaw | 运行时 + Skill 体系 | 个人/企业 Agent 部署 |
| 维度 | GPT-5 | Claude 4 | Gemini 2.5 | Kimi k2.6 | GLM-5 | DeepSeek-V4 |
|---|---|---|---|---|---|---|
| 提供商 | OpenAI | Anthropic | Moonshot | Zhipu | DeepSeek | |
| 上下文长度 | 128K | 200K+ | 1M | 200K | 128K | 128K |
| 多模态 | 文本/图像/音频 | 文本/图像 | 文本/图像/音频/视频 | 文本/图像 | 文本/图像 | 文本 |
| 代码能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 中文能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 推理能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 安全性 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| API 成本 | 高 | 高 | 中 | 低 | 低 | 极低 |
| 开源 | ❌ | ❌ | 部分 | ❌ | 部分 | ✅ |
需要处理图像/视频?
├── 是 → 需要音频/视频?
│ ├── 是 → Gemini 2.5(原生多模态最强)
│ └── 否 → GPT-5 / Claude 4(图像理解优秀)
└── 否 → 主要语言是中文?
├── 是 → 预算敏感?
│ ├── 是 → DeepSeek-V4 / Kimi k2.6
│ └── 否 → Kimi k2.6 / GLM-5
└── 否 → 代码任务为主?
├── 是 → Claude 4 / DeepSeek-V4
└── 否 → 通用任务 → GPT-5 / Claude 4
| 方式 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 云端 API | 即开即用、免运维、最新模型 | 数据外泄风险、持续成本 | 大多数应用 |
| 私有化部署 | 数据安全、可控性强 | 硬件投入大、运维复杂 | 金融、医疗、政务 |
| 边缘部署 | 低延迟、离线可用 | 模型规模受限 | 移动端、IoT |
| 混合部署 | 平衡安全与成本 | 架构复杂 | 敏感+通用任务混合 |
将模型封装为可复用的服务,是 AI 工程化的第一步。
关键考量:
性能优化技巧:
模型评估维度:
| 维度 | 指标 | 评估方法 |
|---|---|---|
| 准确性 | Exact Match、F1、BLEU、ROUGE | 标准测试集 |
| 事实性 | 幻觉率、知识召回率 | 领域知识库测试 |
| 安全性 | 有害输出率、越狱成功率 | Red Teaming |
| 性能 | TTFT(首 token 时间)、TPOT(每 token 时间) | 压测 |
| 成本 | 每千 token 成本、端到端成本 | 成本追踪 |
持续监控:
Prompt 注入防护:
数据隐私:
多模态大模型
从纯文本扩展到图像、音频、视频的统一理解和生成。代表:GPT-4o、Gemini 2.0、Claude 3.5 Sonnet(视觉)。
长上下文突破
上下文窗口从 4K 扩展到 1M+ tokens,使得处理整本书、代码库、长视频成为可能。技术:Ring Attention、压缩注意力。
推理模型
专门优化推理能力的模型,如 OpenAI o1/o3、DeepSeek-R1。通过强化学习训练模型"思考更久",在数学、编程、科学推理上表现突出。
小型化与端侧部署
Agent 生态
从单 Agent 到多 Agent 协作,从简单工具调用到复杂任务规划。MCP 协议的普及正在标准化 Agent 与工具的交互方式。
| 时间线 | 趋势 | 影响 |
|---|---|---|
| 2025 | MCP 生态成熟 | 工具调用标准化,Agent 开发门槛大幅降低 |
| 2025-2026 | 多模态普及 | 图像/音频/视频成为标准输入,交互方式革新 |
| 2026-2027 | 推理成本持续下降 | 更多应用经济可行,AI 渗透加速 |
| 2027+ | 世界模型探索 | 从语言模型到物理世界理解的跨越 |
| 术语 | 英文全称 | 含义 |
|---|---|---|
| LLM | Large Language Model | 大语言模型,基于 Transformer 的通用语言模型 |
| MCP | Model Context Protocol | 模型上下文协议,标准化模型与外部工具交互 |
| RAG | Retrieval-Augmented Generation | 检索增强生成,结合外部知识库减少幻觉 |
| Agent | Agent | 能自主规划、调用工具、执行多步骤任务的智能体 |
| Prompt | Prompt | 给模型的输入指令,包含任务描述和上下文 |
| Token | Token | 模型处理文本的最小单位,通常 1 汉字 ≈ 1–2 tokens |
| Embedding | Embedding | 将文本/数据映射到高维向量空间的密集表示 |
| Fine-tuning | Fine-tuning | 在预训练模型基础上用特定领域数据继续训练 |
| RLHF | Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习,用于模型对齐 |
| DPO | Direct Preference Optimization | 直接偏好优化,简化 RLHF 的替代方案 |
| KV Cache | Key-Value Cache | 存储注意力计算中的键值对,加速自回归生成 |
| Quantization | Quantization | 量化,将模型权重从高精度(FP32)转为低精度(INT8/INT4) |
| Hallucination | Hallucination | 幻觉,模型生成看似合理但实际错误的内容 |
| Temperature | Temperature | 采样温度,控制输出随机性(0=确定性,1=创造性) |
| Top-p / Top-k | Nucleus Sampling / Top-k Sampling | 限制采样范围的解码策略 |
| System Prompt | System Prompt | 系统级指令,设定模型的全局行为和角色 |
| Few-shot | Few-shot Learning | 通过少量示例引导模型学习新任务 |
| CoT | Chain-of-Thought | 思维链,引导模型逐步推理的提示技术 |
| Function Calling | Function Calling | 模型调用外部函数的机制 |
| A2A | Agent-to-Agent Protocol | 智能体间通信协议 |
| 模型 | 提供商 | 上下文 | 特点 | 适用场景 |
|---|---|---|---|---|
| GPT-5 | OpenAI | 128K | 通用能力最强,多模态 | 通用任务、创意写作 |
| Claude 4 | Anthropic | 200K+ | 长上下文、安全性高 | 代码审查、长文档分析 |
| Gemini 2.5 | 1M | 原生多模态,Google 生态 | 视频分析、搜索增强 | |
| Kimi k2.6 | Moonshot | 200K | 中文优化,长文本处理 | 中文内容、文献阅读 |
| GLM-5 | Zhipu | 128K | 中文理解强,开源生态 | 中文应用、私有化部署 |
| DeepSeek-V4 | DeepSeek | 128K | 推理能力强,性价比高 | 代码生成、数学推理 |
入门阶段:
进阶阶段:
高级阶段:
本知识体系持续更新中。最后更新:2026-05-02