大语言模型(LLM)核心技术涵盖从基础架构到应用落地的完整技术栈。本文作为 AI 核心技术的总览索引,系统性梳理 Transformer 架构、Attention 机制、训练与微调、推理优化、对齐技术、检索增强生成(RAG)、Agent 架构、多模态技术、Embedding 与向量表示、提示工程(Prompt Engineering)以及模型评估方法等核心方向。
AI 核心技术可分为四个层次:
| 层次 | 技术方向 | 代表性技术 |
|---|---|---|
| 架构层 | 模型基础架构 | Transformer、Attention 机制、Mixture of Experts (MoE) |
| 训练与微调层 | 模型训练与适配 | 预训练、Fine-tuning、RLHF、Instruction Tuning |
| 优化与部署层 | 模型压缩与推理 | 量化 (Quantization)、蒸馏、vLLM、TensorRT |
| 应用层 | 能力增强与落地 | RAG、Agent、Prompt Engineering、Multimodal |
| 年份 | 里程碑 | 影响 |
|---|---|---|
| 2017 | Google 发表《Attention Is All You Need》 | Transformer 架构诞生,取代 RNN/LSTM |
| 2018 | OpenAI 发布 GPT-1,Google 发布 BERT | 预训练-微调范式确立 |
| 2020 | OpenAI 发布 GPT-3(175B) | 规模定律初步验证,涌现能力被发现 |
| 2021 | OpenAI 发布 InstructGPT (RLHF) | 人类偏好对齐技术成熟 |
| 2022 | ChatGPT 发布 | LLM 进入大众视野,对话式 AI 爆发 |
| 2023 | GPT-4、Claude、Llama 2 发布开源最强 | 开源与闭源模型激烈竞争 |
| 2024 | Llama 3、Claude 3.5、GPT-4o、o1 | 推理能力突破,多模态成为标配 |
| 2025 | DeepSeek-V3、Claude 4、GPT-5 等 | MoE 架构主导开源,Agent 系统走向成熟 |
┌──────────────────────────────────────┐
│ Transformer 架构 │
│ (Attention/MoE/Normalization) │
└────────────┬─────────────────────────┘
│
┌────────────▼─────────────────────────┐
│ 预训练 (Pretraining) │
│ (Next Token Prediction / MLM) │
└────────────┬─────────────────────────┘
│
┌────────────▼─────────────────────────┐
│ 模型微调 (Fine-tuning) │
│ (SFT / RLHF / DPO / LoRA / QLoRA) │
└────┬──────────────┬──────────────────┘
│ │
┌──────────▼──┐ ┌──────▼──────────┐
│ 能力增强 │ │ 推理优化 │
│ ┌─────────┐ │ │ ┌─────────────┐ │
│ │RAG │ │ │ │量化 Quant │ │
│ │Agent │ │ │ │蒸馏 Distill │ │
│ │Multimodal│ │ │ │vLLM/TensorRT│ │
│ │Prompt │ │ │ │KV-Cache │ │
│ └─────────┘ │ │ └─────────────┘ │
└─────────────┘ └─────────────────┘
Transformer 是当前所有大语言模型的基础架构。其核心创新在于完全基于 自注意力机制(Self-Attention),摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)。
| 组件 | 功能 | 输入 | 输出 | 参数量估算 |
|---|---|---|---|---|
| 输入 Embedding | 将 Token 映射为向量 | Token ID | 向量 | (=词表大小,=隐藏维度) |
| 位置编码 | 注入位置信息 | 位置索引 | 位置向量 | 0(绝对编码)或可学习 |
| Multi-Head Attention | 捕捉序列内依赖关系 | 矩阵 | 加权和 | (含投影层) |
| Feed-Forward Network | 非线性变换 | Attention 输出 | 变换后向量 | (含两个全连接层) |
| Layer Normalization | 稳定训练 | 上一层输出 | 归一化后向量 | (scale + shift) |
以 GPT-3(175B)为例:
| 架构 | 代表模型 | 特点 | 适用场景 |
|---|---|---|---|
| Encoder-Decoder | T5, BART | 编码器双向注意力,解码器单向 | 翻译、摘要、文本生成 |
| Encoder-Only | BERT, RoBERTa | 双向注意力 | 文本分类、NER、阅读理解 |
| Decoder-Only | GPT 系列、Llama、Claude | 因果注意力(掩码) | 对话、文本生成、代码生成 |
Attention 机制经历了从经典 Scaled Dot-Product Attention 到高效变种的快速发展。
其中 ,,。
数值示例: 假设序列长度 ,
Q = [[0.1, 0.2, ..., 0.8]] # 4个token x 8维
K = [[0.3, 0.1, ..., 0.6]] # 同上
Step 1: (4×4 矩阵)
Step 2: → 每行和为 1
Step 3: 加权求和 → 输出 4 个新向量
| Token 索引 | Q 与自身注意力得分 | Q 与 Token2 得分 | Q 与 Token3 得分 | Q 与 Token4 得分 |
|---|---|---|---|---|
| Token 1 | 0.35 | 0.25 | 0.22 | 0.18 |
| Token 2 | 0.20 | 0.40 | 0.15 | 0.25 |
| Token 3 | 0.18 | 0.12 | 0.50 | 0.20 |
| Token 4 | 0.15 | 0.20 | 0.30 | 0.35 |
注意:每个 Token 与自身的注意力得分通常最高(对角线占优)。
其中
| 头数 | 每头维度 | 总计算量 | 表达能力 |
|---|---|---|---|
| 1 | 单一关系模式 | ||
| 8 | 8种不同关系模式 | ||
| 32 | 32种关系模式 |
GPT-3 使用 96 头,每头维度 128()。
| 变种 | 复杂度 | 核心思想 | 代表模型 |
|---|---|---|---|
| 标准 Self-Attention | 全连接注意力矩阵 | Transformer | |
| Sliding Window | 只关注局部窗口 | Mistral, LongRoPE | |
| Flash Attention | (但 IO 优化) | 分块计算,减少显存读写 | GPT-4, Llama 3 |
| Grouped Query Attention (GQA) | (KV Cache 减少) | 多个 Query 头共享 KV 头 | Llama 2/3 |
| Multi-Query Attention (MQA) | (KV Cache 最少) | 所有 Query 共享 KV | Falcon, PaLM |
| Sparse Attention | 稀疏模式+局部窗口 | GPT-3, BigBird |
GQA 效果数据:
| 配置 | KV Cache 大小 | 推理速度 | 质量损失 |
|---|---|---|---|
| MHA (标准) | 基准 100% | 基准 | — |
| GQA-8 (8头共享1个KV) | ~62% | 快 1.3-1.6x | <0.1% |
| GQA-4 (4头共享1个KV) | ~44% | 快 1.5-1.8x | <0.3% |
| MQA (全共享) | ~25% | 快 1.8-2.2x | ~0.5-1% |
MoE 架构通过在 Transformer FFN 层引入多个"专家"子网络,在保持模型容量的同时大幅降低计算成本。
其中 为门控网络, 为第 个专家, 为专家总数。
门控网络(Top-K 路由):
| 模型 | 总参数量 | 激活参数量 | 专家数 | Top-K | 发布时间 |
|---|---|---|---|---|---|
| Mixtral 8x7B | 47B | 13B | 8 | 2 | 2023.12 |
| DeepSeek-V2 | 236B | 21B | 160 | 6 | 2024.05 |
| Qwen2.5-MoE | 45B | 12B | 8 | 2 | 2024.12 |
| DeepSeek-V3 | 671B | 37B | 256 | 8 | 2024.12 |
负载均衡示例: 以 Mixtral 8x7B 为例,输入一批 1024 个 Token,理想情况下每个专家处理 个 Token。但实际可能偏差:
| 专家编号 | 处理 Token 数(无约束) | 处理 Token 数(加负载均衡 Loss) |
|---|---|---|
| 1 | 512 | 280 |
| 2 | 384 | 260 |
| 3 | 256 | 270 |
| 4 | 128 | 240 |
| 5 | 64 | 230 |
| 6 | 192 | 265 |
| 7 | 320 | 255 |
| 8 | 192 | 248 |
| 均衡度 | 低(0.65) | 高(0.97) |
预训练是 LLM 能力的根本来源,核心目标是让模型学习语言的统计规律和世界知识。
| 目标 | 公式 | 代表模型 | 特点 |
|---|---|---|---|
| 因果语言建模 | GPT 系列 | 自回归生成 | |
| 掩码语言建模 | BERT | 双向理解 | |
| 排列语言建模 | XLNet | 结合双向+自回归 | |
| 前缀语言建模 | T5, GLM | Encoder-Decoder |
| 模型 | 训练 Token 数 | 训练成本 (GPU 小时) | 等效电力消耗 |
|---|---|---|---|
| GPT-2 (1.5B) | 40B | ~$50k | 约 30 MWh |
| GPT-3 (175B) | 300B | ~$4.6M | 约 1,300 MWh |
| Llama 2 (70B) | 2T | ~$2M | 约 600 MWh |
| Llama 3 (405B) | 15.6T | ~$80M | 约 24,000 MWh |
| DeepSeek-V3 (671B) | 14.8T | ~$5.6M(训练成本) | 约 2,800 MWh |
注:DeepSeek-V3 通过 MoE 和优化大幅降低训练成本,同等质量下成本仅为 Llama 3 的约 1/14。
Kaplan et al. (2020) 提出模型性能与三个要素的幂律关系:
其中 为参数量, 为数据量, 为损失。
| 参数量 | 最优数据量 | 损失值 (Chinchilla 定律) |
|---|---|---|
| 1B | 20B | 3.2 |
| 7B | 140B | 2.8 |
| 13B | 260B | 2.6 |
| 70B | 1.4T | 2.3 |
| 175B | 3.5T | 2.1 |
| 1T | 20T | 1.8 |
SFT 让预训练模型适配特定任务或对话格式。
| 任务类型 | 推荐样本数 | 数据格式 | 代表数据集 |
|---|---|---|---|
| 对话格式 | 5k-50k | (Instruction, Response) | ShareGPT, OpenAssistant |
| 代码生成 | 50k-500k | (问题, 代码) | CodeAlpaca, Magicoder |
| 数学推理 | 10k-100k | (问题, 推理过程) | MathInstruct, GSM8K |
| 多轮对话 | 10k-100k | 多轮对话历史 | UltraChat |
数据质量 vs 数量: LIMA 实验(Zhou et al., 2023)表明:
假设优化一个最小化 的问题:
| 迭代 | 梯度 | 学习率 | 更新量 | 新 | Loss | |
|---|---|---|---|---|---|---|
| 0 | 0.0 | -6.0 | 0.1 | -0.6 | 0.6 | 9.00 |
| 1 | 0.6 | -4.8 | 0.1 | -0.48 | 1.08 | 3.69 |
| 2 | 1.08 | -3.84 | 0.1 | -0.384 | 1.464 | 2.36 |
| 3 | 1.464 | -3.072 | 0.1 | -0.307 | 1.771 | 1.51 |
| ... | ... | ... | ... | ... | ... | ... |
| 20 | 2.985 | -0.03 | 0.1 | -0.003 | 2.988 | ~0.0001 |
全参数微调(Full Fine-tuning)成本高昂,PEFT 方法大幅降低门槛:
| 方法 | 可训练参数量 | 显存占用 | 质量(相对全量) | 适用场景 |
|---|---|---|---|---|
| Full Fine-tuning | 100% | 基准 | 100% | 有充足算力 |
| Adapter | ~3-5% | 减少 40% | ~98-99% | 多任务场景 |
| Prefix Tuning | ~0.1% | 减少 60% | ~95-97% | 零样本泛化 |
| LoRA | ~0.1-1% | 减少 60% | ~97-99% | 最常用,通用性强 |
| QLoRA | ~0.1-1% | 减少 80% | ~96-98% | 单卡也能微调 65B |
其中 ,,,。
参数量对比:
| 模型 | 维度 | 原始矩阵参数量 | LoRA 参数量 | 压缩比 | |
|---|---|---|---|---|---|
| GPT-3 | 12288 | 8 | ~768x | ||
| Llama 7B | 4096 | 8 | ~256x | ||
| Llama 70B | 8192 | 16 | ~256x |
对 的敏感性(LLaMA 7B 在 MT-Bench 上):
| 训练参数量 | MT-Bench 得分 | 训练时间(1xA100) | |
|---|---|---|---|
| 2 | 0.03% | 6.24 | 3h |
| 8 | 0.12% | 6.48 | 3.2h |
| 16 | 0.25% | 6.52 | 3.5h |
| 64 | 1.0% | 6.55 | 4.5h |
| Full FT | 100% | 6.58 | 48h |
时即可达到 Full FT 约 99% 的质量,但仅需 1/10 的训练时间。
RLHF 是让模型行为与人类偏好对齐的关键技术。
Stage 1: SFT
预训练模型 → 人工标注偏好数据 → SFT 微调
Stage 2: Reward Model (RM)
SFT 模型 → 对多个输出评分 → 训练 RM 预测偏好
Stage 3: PPO
SFT 模型 + RM → PPO 强化学习 → 对齐后模型
| 输入 Prompt | 生成 A | 生成 B | 偏好 |
|---|---|---|---|
| "解释什么是量子纠缠" | "量子纠缠是..."(200字,准确) | "是一种物理现象"(10字,太简略) | A |
| "写一首关于春天的诗" | "春风又绿江南岸..."(七言绝句,押韵) | "春天来了,花开了"(大白话) | A |
| "1+1等于几?" | "根据数学定义,1+1=2"(正确) | "1+1=3"(错误) | A |
| "如何看待失败?" | "失败是成功之母..."(100字,敷衍) | 回答包含具体例子和个人反思(300字,有深度) | B |
其中 控制偏离 SFT 模型的程度, 是 KL 散度。
PPO 训练效果示例(InstructGPT 数据):
| 指标 | SFT 模型 | PPO 模型 | 改善 |
|---|---|---|---|
| 有用性(Helpful) | 71% | 86% | +15% |
| 诚实性(Honest) | 88% | 94% | +6% |
| 无害性(Harmless) | 82% | 93% | +11% |
| 总体人类偏好 | 63% | 83% | +20% |
DPO 简化了 RLHF,无需单独训练 Reward Model:
| 方法 | 训练复杂度 | 稳定性 | 需 RM | 代表性模型 |
|---|---|---|---|---|
| PPO | 高 | 难 | 是 | GPT-4, Claude |
| DPO | 低 | 易 | 否 | Llama 3, Zephyr |
| KTO | 低 | 易 | 否 | OpenChat 3.5 |
在自回归推理时,KV-Cache 存储已计算过的 Key 和 Value,避免重复计算。
无 KV-Cache vs 有 KV-Cache:
| 生成步骤 | 无 KV-Cache 计算量 | 有 KV-Cache 计算量 | 加速比 |
|---|---|---|---|
| 第 1 步 | 1x | ||
| 第 2 步 | 2x | ||
| 第 10 步 | 10x | ||
| 第 100 步 | 100x |
KV-Cache 显存占用(Llama 70B,批次=1):
| 生成长度 | KV-Cache 大小 | 模型权重 | 总显存 |
|---|---|---|---|
| 512 | ~1.4 GB | ~140 GB | ~142 GB |
| 2048 | ~5.6 GB | ~140 GB | ~146 GB |
| 8192 | ~22.4 GB | ~140 GB | ~163 GB |
| 32768 | ~89.6 GB | ~140 GB | ~230 GB |
量化将模型权重从 FP16/FP32 压缩到低位宽整数,显著降低显存和加速推理。
主流量化方法对比:
| 方法 | 位宽 | 显存节省 | 速度提升 | 质量损失(BPB) |
|---|---|---|---|---|
| FP16 | 16-bit | 1x | 1x | 0% (基准) |
| INT8 | 8-bit | 2x | 1.5-2x | <0.5% |
| INT4 | 4-bit | 4x | 2-3x | 1-2% |
| NF4 (QLoRA) | 4-bit | 4x | — | ~1% |
| INT3 | 3-bit | 5.3x | 2-4x | 3-5% |
| INT2 | 2-bit | 8x | 3-5x | 5-10% |
量化后的模型推理成本对比(推理 1000 tokens):
| 模型 | FP16 显存 | INT8 显存 | INT4 显存 | INT8 延迟 | INT4 延迟 |
|---|---|---|---|---|---|
| Llama 7B | 14 GB | 7 GB | 3.5 GB | 45 ms | 35 ms |
| Llama 13B | 26 GB | 13 GB | 6.5 GB | 80 ms | 55 ms |
| Llama 70B | 140 GB | 70 GB | 35 GB | 350 ms | 220 ms |
| Mixtral 8x7B | 94 GB | 47 GB | 23.5 GB | 180 ms | 120 ms |
| 引擎 | 核心优化 | 支持硬件 | 吞吐(tokens/s) | 适用场景 |
|---|---|---|---|---|
| vLLM | PagedAttention、连续批处理 | NVIDIA GPU | 最高 | 在线推理服务 |
| TensorRT-LLM | 图优化、INT4/FP8、Inflight Batching | NVIDIA GPU | 高 | 生产部署 |
| llama.cpp | CPU 优化、量化推理 | CPU + GPU | 中等 | 本地/边缘部署 |
| ONNX Runtime | 跨平台、融合算子 | 多平台 | 中高 | 企业级部署 |
| MLC-LLM | CPU/GPU/手机全平台 | 通用 | 中等 | 移动端部署 |
吞吐量对比(Llama 7B, A100-80GB):
| 引擎 | Batch=1 (t/s) | Batch=32 (t/s) | Batch=64 (t/s) | 峰值吞吐 |
|---|---|---|---|---|
| HuggingFace (baseline) | 28 | 45 | 52 | 52 t/s |
| vLLM | 32 | 380 | 420 | 420 t/s |
| TensorRT-LLM | 35 | 520 | 580 | 580 t/s |
| llama.cpp (4-bit) | 22 | 85 | 110 | 110 t/s |
RAG 通过检索外部知识库来增强 LLM 的生成能力,解决 Hallucination 和知识更新问题。
用户输入
│
▼
┌─────────────────────────────────────────────────┐
│ 1. 查询理解与转换 │
│ ┌──────────┐ ┌──────────────┐ │
│ │原始查询 │ → │查询重写/分解 │ │
│ └──────────┘ └──────────────┘ │
└─────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────┐
│ 2. 检索 │
│ ┌──────────┐ ┌──────────────┐ │
│ │Embedding │ → │向量数据库检索 │ │
│ │文本→向量 │ │(Top-K 召回) │ │
│ └──────────┘ └──────────────┘ │
└─────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────┐
│ 3. 重排序与过滤 │
│ ┌──────────┐ ┌──────────────┐ │
│ │相关性排序 │ → │截断Top-N │ │
│ │(ReRanker) │ │(通常N=3-5) │ │
│ └──────────┘ └──────────────┘ │
└─────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────┐
│ 4. 上下文增强生成 │
│ ┌──────────┐ ┌──────────────┐ │
│ │构建Prompt │ → │LLM 生成回答 │ │
│ │(检索结果) │ │ │ │
│ └──────────┘ └──────────────┘ │
└─────────────────────────────────────────────────┘
│
▼
输出
| 策略 | 召回率@5 | 耗时 | 适用场景 |
|---|---|---|---|
| 稠密检索 (Embedding) | 85-95% | 10-50ms | 语义匹配(推荐) |
| 稀疏检索 (BM25) | 60-80% | 1-5ms | 精确匹配 |
| 混合检索 (稠密+稀疏) | 90-98% | 15-60ms | 通用(效果最好) |
| 迭代检索 | 92-98% | 50-200ms | 复杂查询 |
| 查询分解 | 85-95% | 30-100ms | 多跳问题 |
RAG 效果提升数据(NQ 数据集):
| 设置 | EM (Exact Match) | F1 Score | Hallucination 率 |
|---|---|---|---|
| 纯 LLM (无检索) | 32.5% | 42.1% | 28.3% |
| RAG + BM25 | 44.8% | 54.2% | 12.1% |
| RAG + Embedding | 48.3% | 57.8% | 8.7% |
| RAG + 混合检索 | 51.2% | 60.4% | 6.5% |
| RAG + 重排序 | 52.9% | 62.1% | 5.2% |
AI Agent 让 LLM 具备工具使用、自主规划和记忆管理等能力。
┌─────────────────────────────────────────────┐
│ Agent 系统架构 │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 核心大脑 │ │ 感知模块 │ │ 行动模块 │ │
│ │ (LLM) │ │ (输入) │ │ (输出) │ │
│ └────┬─────┘ └────┬─────┘ └────┬─────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ 规划层 │ │
│ │ ┌─────────┐ ┌─────────┐ │ │
│ │ │思维链CoT│ │任务分解 │ │ │
│ │ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ 记忆层 │ │
│ │ ┌─────────┐ ┌─────────┐ │ │
│ │ │短期记忆 │ │长期记忆 │ │ │
│ │ │(上下文) │ │(向量DB) │ │ │
│ │ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ 工具层 │ │
│ │ ┌─────────┐ ┌─────────┐ │ │
│ │ │API调用 │ │代码执行 │ │ │
│ │ │(REST) │ │(Python) │ │ │
│ │ └─────────┘ └─────────┘ │ │
│ └─────────────────────────────────────┘ │
└─────────────────────────────────────────────┘
| 框架 | 代表 Agent | 核心特点 | 架构类型 | 多 Agent 支持 |
|---|---|---|---|---|
| AutoGPT | 独立 Agent | 自主循环、文件管理 | 单 Agent | 有限 |
| LangChain Agent | 函数调用 Agent | 丰富工具集 | 单 Agent | 通过 Chain |
| CrewAI | 多 Agent 协作 | 角色分配、任务委派 | 多 Agent | ✅ 原生 |
| AutoGen | 多 Agent 对话 | Agent 间对话模式 | 多 Agent | ✅ 原生 |
| Claude Code | 终端 Agent | Shell 原生工具 | 单 Agent | 有限 |
| Codex CLI | 编码 Agent | 沙箱执行 | 单 Agent | 有限 |
| 任务类型 | 纯 LLM | Agent(1次尝试) | Agent(带反思) | Agent(带工具校验) |
|---|---|---|---|---|
| 信息查询 | 58% | 72% | 78% | 85% |
| 数据分析 | 35% | 65% | 72% | 78% |
| 代码执行 | 42% | 68% | 74% | 82% |
| 多步推理 | 28% | 55% | 63% | 70% |
Embedding 将文本映射为固定维度的向量,是检索和分类的基础。
| 模型 | 维度 | 最大 Token | 性能 (MTEB) | 特点 |
|---|---|---|---|---|
| OpenAI text-embedding-3-large | 3072 | 8191 | 64.6 | 闭源最强 |
| OpenAI text-embedding-3-small | 1536 | 8191 | 62.3 | 性价比最优 |
| BGE-large-en-v1.5 | 1024 | 512 | 64.2 | 开源首选 |
| BGE-M3 | 1024 | 8192 | 66.1 | 多语言+多粒度 |
| E5-mistral-7b-instruct | 4096 | 4096 | 66.6 | 最高分的开源 |
| GTE-Qwen2-7B | 4096 | 8192 | 67.1 | 2024年最强 |
| Jina Embeddings v3 | 1024 | 8192 | 65.2 | 任务类型自适应 |
维度-精度-成本权衡:
| 维度 | 存储 (百万文档) | 检索延迟 (百万文档) | MTEB 得分 | 召回率@10 |
|---|---|---|---|---|
| 256 | 1.0 GB | 8ms | 58.3 | 88% |
| 512 | 2.0 GB | 12ms | 61.8 | 92% |
| 1024 | 4.0 GB | 18ms | 64.2 | 95% |
| 3072 | 12.0 GB | 35ms | 64.6 | 96% |
Prompt Engineering 是优化输入指令以激发 LLM 最佳表现的工程方法。
| 技巧 | 原理 | 效果提升 | 适用场景 |
|---|---|---|---|
| Zero-shot | 直接提问 | 基准 | 简单任务 |
| Few-shot | 提供示例 | +10-30% | 格式规范、分类 |
| Chain-of-Thought (CoT) | 引导推理步骤 | +15-35% | 数学、逻辑推理 |
| Tree-of-Thought (ToT) | 多分支搜索 | +5-15% | 复杂规划 |
| Self-Consistency | 多次采样取众数 | +5-10% | 数学、事实问答 |
| ReAct | 推理+行动交替 | +10-25% | Agent 任务 |
| Persona | 角色设定 | +5-15% | 特定领域 |
| Structured Output | JSON/XML 约束 | +20-40% | 结构化输出 |
CoT 数值效果对比(GSM8K 数学推理):
| 模型 | Zero-shot | 5-shot | CoT (5-shot) | CoT+Self-Consistency |
|---|---|---|---|---|
| GPT-3 (175B) | 17% | 32% | 58% | 72% |
| Llama 2 70B | 24% | 38% | 56% | 68% |
| GPT-4 | 72% | 82% | 92% | 96% |
| Claude 3 Opus | 68% | 78% | 88% | 93% |
| DeepSeek-V3 | 52% | 65% | 79% | 88% |
Prompt 配方示例:
系统:
你是一位专业的 Python 数据分析师。请严格按照以下格式输出:
1. 首先分析问题
2. 然后给出代码(用 ```python 包裹)
3. 最后解释结果
用户:
我们有一个销售数据集包含日期、产品、销售额三列。
请计算每个月的总销售额,并找出销售额最高的产品。
助手:
分析:这是一个按月汇总和产品排名的问题,需要:
- 将日期转为月份
- 按月份和产品分组聚合
- 对月份内产品销售额排序
```python
import pandas as pd
data = pd.read_csv('sales.csv')
data['month'] = pd.to_datetime(data['date']).dt.to_period('M')
monthly_sales = data.groupby(['month', 'product'])['amount'].sum()
result = monthly_sales.groupby('month').idxmax()
### 5.5 多模态技术
多模态 LLM 能够同时处理文本、图像、音频、视频等多种数据类型。
#### 主流多模态模型
| 模型 | 支持模态 | 视觉编码器 | 对齐方式 | 发布时间 |
|------|---------|-----------|---------|---------|
| GPT-4V/4o | 文本+图像+音频 | 未知 | 端到端 | 2023.09 |
| Claude 3.5 Vision | 文本+图像 | 未知 | 端到端 | 2024.06 |
| Gemini 1.5 Pro | 文本+图像+音频+视频 | 多模态编码器 | 原生多模态 | 2024.02 |
| Llama 3.2 Vision | 文本+图像 | ViT-H/14 | Cross-attention | 2024.09 |
| Qwen2-VL | 文本+图像+视频 | ViT | Qwen-VL 架构 | 2024.08 |
| DeepSeek-VL2 | 文本+图像 | SigLIP | MoE 视觉 | 2024.12 |
#### 多模态模型性能对比
| Benchmark | GPT-4V | Gemini 1.5 Pro | Claude 3.5 | Llama 3.2 90B | Qwen2-VL 72B |
|-----------|--------|---------------|-----------|--------------|-------------|
| MMMU | 69.1% | 72.1% | 68.3% | 64.5% | 66.8% |
| MMBench | 83.5% | 81.2% | 82.8% | 79.8% | 81.5% |
| VQAv2 | 81.2% | 79.8% | 80.5% | 77.6% | 79.1% |
| DocVQA | 88.4% | 86.7% | 87.9% | 82.3% | 86.5% |
| ChartQA | 82.5% | 80.1% | 81.3% | 78.5% | 80.8% |
#### 视觉 Token 效率
| 图像分辨率 | GPT-4V Token | Gemini 1.5 Token | Qwen2-VL Token |
|-----------|-------------|-----------------|---------------|
| 224×224 | ~256 | ~256 | ~256 |
| 448×448 | ~1024 | ~1024 | ~256 |
| 1024×1024 | ~4096 | ~4096 | ~256 |
| 4K 图像 | ~16384 | ~16384 | ~512 |
### 5.6 模型评估方法
评估是衡量模型能力、引导改进方向的关键环节。
#### 主流 Benchmark
| Benchmark | 类型 | 题目数 | 覆盖能力 | 代表分数(GPT-4) |
|-----------|------|--------|---------|----------------|
| MMLU | 综合知识 | 14,042 | 57 学科知识 | 86.4% |
| GSM8K | 数学推理 | 8,500 | 小学数学 | 92.0% |
| HumanEval | 代码生成 | 164 | Python 函数 | 87.2% |
| HellaSwag | 常识推理 | 10,042 | 常识推理 | 95.6% |
| BBH | 逻辑推理 | 8,600 | 23种高级推理 | 87.5% |
| MT-Bench | 对话质量 | 80 | 多轮对话 | 8.99/10 |
| Chatbot Arena | 综合 | 100K+ votes | 人类偏好 | ~1300 ELO |
#### 评估维度和方法
| 维度 | 评估指标 | 代表 Benchmark | 自动化程度 |
|------|---------|--------------|-----------|
| 知识能力 | Accuracy, F1 | MMLU, C-Eval | 高(标准化测试) |
| 推理能力 | Pass@1, Accuracy | GSM8K, BBH, MATH | 高 |
| 代码能力 | Pass@k | HumanEval, MBPP | 高(单元测试) |
| 安全性 | Toxicity, Bias | TruthfulQA, BBQs | 中 |
| 对齐度 | Win Rate | MT-Bench, Arena | 低(需要人类) |
| 完整性 | BLEU, ROUGE | 机器翻译, 摘要 | 高 |
| 指令遵循 | IFEval 得分 | IFEval | 高 |
**Benchmark 得分对比(截至 2025 Q1):**
| 模型 | MMLU | GSM8K | HumanEval | BBH | MT-Bench |
|------|------|-------|-----------|-----|---------|
| GPT-4o | 88.7% | 95.8% | 90.2% | 91.5% | 9.12 |
| Claude 3.5 Sonnet | 88.3% | 94.6% | 92.0% | 90.8% | 9.05 |
| Gemini 1.5 Pro | 87.2% | 92.1% | 86.8% | 88.5% | 8.82 |
| Llama 3 405B | 85.1% | 90.8% | 85.2% | 82.3% | 8.52 |
| DeepSeek-V3 | 86.5% | 91.2% | 82.6% | 87.3% | 8.45 |
| Qwen2.5 72B | 85.3% | 89.5% | 80.4% | 85.1% | 8.31 |
## 六、技术选型指南
### 6.1 场景-技术矩阵
| 应用场景 | 核心技术 | 推荐模型 | 部署方案 |
|---------|---------|---------|---------|
| 智能客服 | RAG + Fine-tuning | 7B-13B | vLLM + 向量数据库 |
| 代码助手 | SFT + Agent | 13B-70B | TensorRT-LLM |
| 内容生成 | SFT + RLHF | 70B+ | 云端 API |
| 企业知识库 | RAG + Agent | 7B-34B | RAG 系统 + vLLM |
| 数据标注 | Prompt + Few-shot | 任意 | API + 批处理 |
| 实时翻译 | SFT | 7B-13B | TensorRT-LLM |
| 文档理解 | Multimodal | 7B-70B (Vision) | vLLM + 视觉编码器 |
| 代码审查 | SFT + Agent | 13B-34B | 本地部署 |
### 6.2 成本估算模型
部署一个 70B 模型在不同场景下的月成本:
| 部署方式 | QPS | GPU 数量 | GPU 类型 | 月估算成本 |
|---------|-----|---------|---------|-----------|
| 云端 API (ChatGPT) | 100 | — | — | $2,000-5,000 |
| 自建 vLLM (INT8) | 50 | 8 | A100-80G | $8,000-12,000 |
| 自建 vLLM (INT4) | 50 | 4 | A100-80G | $4,000-6,000 |
| 自建 TensorRT (FP8) | 100 | 8 | H100 | $16,000-24,000 |
| 本地 llama.cpp (4-bit) | 1 | 1 | RTX 4090 | $200 (电费) |
## 七、总结与趋势
### 7.1 核心技术成熟度
| 技术 | 成熟度 | 应用广度 | 未来 1-2 年方向 |
|------|--------|---------|---------------|
| Transformer 架构 | ★★★★★ | 全面 | MoE + 长上下文 |
| Attention 机制 | ★★★★★ | 全面 | Linear Attention |
| 预训练 | ★★★★☆ | 核心 | 数据质量 > 数量 |
| SFT | ★★★★★ | 全面 | 合成数据 + 质量过滤 |
| RLHF/DPO | ★★★★☆ | 对齐流程 | 可扩展监督 |
| 量化 | ★★★★☆ | 部署必备 | FP8/INT2 硬件支持 |
| KV-Cache | ★★★★★ | 推理标准 | 无限上下文 |
| RAG | ★★★★☆ | 知识密集应用 | Agent + RAG 融合 |
| Agent | ★★★☆☆ | 快速增长 | 自主规划 + 安全 |
| Multimodal | ★★★☆☆ | 高速发展 | 原生多模态 |
| Embedding | ★★★★★ | 索引检索 | 长文档 + 稀疏 |
| Prompt Engineering | ★★★★☆ | 应用技巧 | 自动优化 |
### 7.2 值得关注的趋势
1. **MoE 主导开源**:DeepSeek-V3/Qwen2.5-MoE 证明 MoE 可以大幅降低训练成本,预计 2025 年大多数开源模型将采用 MoE 架构
2. **长上下文成为标配**:从 4K 到 128K+,2025 年的模型普遍支持 100K+ 上下文,需要新的 Attention 和 KV-Cache 优化
3. **Agent 系统走向成熟**:多 Agent 协作、工具链标准化、安全护栏将成为 Agent 系统的标配
4. **端侧 AI 崛起**:量化 + 小模型(<3B)让 LLM 跑在手机和 PC 上,隐私和离线能力成为差异化优势
5. **推理计算成为新 Scaling Law**:o1 系列证明"思考时间越长 = 答案越好",推理阶段的计算量将显著增加
## 参考资源
- [Transformer 架构详解](/zh/ai/tech/transformer)
- [Attention 机制演进](/zh/ai/tech/attention)
- [RAG 检索增强生成](/zh/ai/tech/rag)
- [模型微调技术](/zh/ai/tech/fine-tuning)
- [RLHF 与人类反馈强化学习](/zh/ai/tech/rlhf)
- [模型量化](/zh/ai/tech/quantization)
- [AI Agent 架构](/zh/ai/tech/agent)
- [模型评估方法](/zh/ai/tech/evaluation)
- [Prompt Engineering](/zh/ai/tech/prompt-engineering)
- [Embedding 与向量表示](/zh/ai/tech/embedding)
- [多模态技术](/zh/ai/tech/multimodal)
- [知名 AI 模型索引](/zh/ai/models/index)
- [重要论文索引](/zh/ai/papers/index)
- [AI 知识体系](/zh/ai/index)