机器学习(Machine Learning)本质上是用数学方法从数据中学习模式。无论是经典的线性回归、支持向量机,还是现代的深度学习、概率图模型,其背后的数学原理都是理解、设计和改进算法的关键。本文系统梳理机器学习所涉及的数学基础,涵盖线性代数、概率论、信息论、优化理论、核方法、概率图模型和深度学习数学。
本文为数学知识库的一部分,与微积分、线性代数、概率论等条目互为参考。
线性代数是机器学习的核心数学语言。数据集通常表示为矩阵,模型训练本质上是矩阵运算,降维、特征提取等操作都依赖线性代数工具。
向量是数据的原子表示单位。一个 d 维向量 x∈Rd 表示一个样本的 d 个特征。整个数据集则构成一个 n×d 的矩阵 X∈Rn×d,其中 n 为样本数,d 为特征数。
矩阵的基本运算:
- 矩阵乘法:C=AB,其中 Cij=∑kAikBkj
- 转置:(AT)ij=Aji
- 逆矩阵:若 A 可逆,则 AA−1=I
- 迹:tr(A)=∑iAii(对角线元素之和)
- 内积:⟨x,y⟩=xTy=∑ixiyi
向量范数衡量向量的大小:
- L1 范数:∥x∥1=∑i∣xi∣ — 产生稀疏解,用于 Lasso 回归
- L2 范数:∥x∥2=∑ixi2 — 欧几里得距离,用于 Ridge 回归
- 无穷范数:∥x∥∞=maxi∣xi∣
矩阵范数中,最常用的是 Frobenius 范数:
∥A∥F=i∑j∑Aij2=tr(ATA)
对于方阵 A∈Rd×d,若存在非零向量 v 和标量 λ 满足:
Av=λv
则 v 称为 A 的特征向量,λ 为对应的特征值。特征值分解将矩阵分解为:
A=QΛQ−1
其中 Q 的列是特征向量,Λ 是对角矩阵(对角元为特征值)。
应用:PCA(主成分分析)的核心就是协方差矩阵的特征值分解——最大特征值对应的特征向量指向数据方差最大的方向。
SVD 是特征值分解的推广,适用于任何矩阵 A∈Rm×n:
A=UΣVT
其中 U∈Rm×m 和 V∈Rn×n 是正交矩阵,Σ∈Rm×n 是对角矩阵(奇异值沿对角线排列)。
SVD 的机器学习应用:
- 矩阵补全(推荐系统):通过截断 SVD 填充缺失评分
- 降维:保留最大的 k 个奇异值近似原矩阵
- 图像压缩:A≈UkΣkVkT
对称矩阵 A 若对所有非零向量 x 满足 xTAx>0,称为正定矩阵(A≻0);若满足 xTAx≥0,称为半正定矩阵(A⪰0)。
意义:在机器学习中,核矩阵、协方差矩阵、Hessian 矩阵通常都是半正定的。凸优化中,Hessian 半正定是函数凸性的标志。
机器学习处理的是不确定性,概率论是描述和推理不确定性的数学框架。
- 概率分布:随机变量 X 取值的概率规律
- 条件概率:P(Y∣X)=P(X)P(X,Y)
- 贝叶斯定理:P(Y∣X)=P(X)P(X∣Y)P(Y)
- 期望:E[X]=∑xxP(x)(离散)或 ∫xp(x)dx(连续)
- 方差:Var(X)=E[(X−E[X])2]
- 协方差:Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
机器学习中最常见的概率分布:
| 分布 |
用途 |
概率密度/质量函数 |
| 正态分布 |
误差建模、初始化 |
p(x)=σ2π1e−2σ2(x−μ)2 |
| 伯努利分布 |
二分类 |
P(X=x)=px(1−p)1−x |
| 多项分布 |
多分类 |
P(X=x)=x1!⋯xk!n!∏pixi |
| 指数族分布 |
广义线性模型 |
p(x∥θ)=h(x)exp(η(θ)TT(x)−A(θ)) |
MLE 寻找使观测数据概率最大的参数:
θ^MLE=argθmaxP(D∣θ)
等价于最小化负对数似然(NLL):
θ^MLE=argθmin−i=1∑nlogp(yi∣xi,θ)
例子:线性回归中,若假设误差服从正态分布,MLE 等价于最小化均方误差(MSE)。
MAP 引入参数的先验分布,将贝叶斯定理应用到估计中:
θ^MAP=argθmaxP(θ∣D)=argθmax[logP(D∣θ)+logP(θ)]
与正则化的关系:在 P(θ) 为正态分布时,MAP 等价于 L2 正则化(Ridge);在 P(θ) 为拉普拉斯分布时,等价于 L1 正则化(Lasso)。
贝叶斯推断不给出单一参数估计,而是计算参数的完整后验分布:
P(θ∣D)=P(D)P(D∣θ)P(θ)
其中 P(θ) 是先验分布,P(D∣θ) 是似然,P(D) 是证据(边际似然)。
预测时,对所有可能的参数做积分(全贝叶斯):
P(y∗∣x∗,D)=∫P(y∗∣x∗,θ)P(θ∣D)dθ
挑战:后验分布通常没有解析解,需要 MCMC 采样或变分推断近似。
信息论为机器学习提供了度量不确定性和信息量的数学工具。
熵度量随机变量的不确定性:
H(X)=−x∑P(x)logP(x)=−E[logP(X)]
性质:
- 均匀分布的熵最大(最不确定)
- 确定分布的熵为零
- 对于二值变量,熵在 p=0.5 时最大
联合熵:H(X,Y)=−∑x,yP(x,y)logP(x,y)
条件熵:给定 X 后 Y 的不确定性:
H(Y∣X)=−x,y∑P(x,y)logP(y∣x)
链式法则:H(X,Y)=H(X)+H(Y∣X)
KL 散度(Kullback-Leibler Divergence)度量两个概率分布之间的差异:
DKL(P∥Q)=x∑P(x)logQ(x)P(x)=Ex∼P[logQ(x)P(x)]
性质:
- DKL(P∥Q)≥0,等号成立当且仅当 P=Q
- 非对称:DKL(P∥Q)=DKL(Q∥P)
- 在变分推断中,我们最小化 DKL(Q∥P)(反向 KL)或 DKL(P∥Q)(前向 KL)
交叉熵是机器学习中最常用的损失函数之一:
H(P,Q)=−x∑P(x)logQ(x)=H(P)+DKL(P∥Q)
分类中的使用:对于 K 类分类问题,交叉熵损失为:
L=−i=1∑nk=1∑Kyiklogy^ik
其中 yik 是 one-hot 真实标签,y^ik 是模型预测的 Softmax 概率。
互信息度量两个变量的依赖程度:
I(X;Y)=DKL(P(X,Y)∥P(X)P(Y))=H(X)−H(X∣Y)
意义:互信息为零表示 X 和 Y 独立。互信息在特征选择中被广泛使用——我们选择与目标变量互信息最大的特征。
机器学习模型的训练归结为最小化(或最大化)一个目标函数。
一个函数 f(x) 是凸函数,若满足:
f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2),∀t∈[0,1]
一阶条件(可微凸函数):f(y)≥f(x)+∇f(x)T(y−x)
二阶条件(二次可微凸函数):∇2f(x)⪰0(Hessian 半正定)
凸优化的优势:局部最优即全局最优。
梯度下降是最基础的优化算法。参数更新规则为:
θt+1=θt−η∇L(θt)
其中 η 是学习率,∇L(θt) 是损失函数的梯度。
梯度下降的三种变体:
- Batch Gradient Descent — 使用全部数据计算梯度,收敛稳定但计算量大
- Stochastic Gradient Descent(SGD) — 每次使用一个样本,引入随机性帮助跳出局部最优
- Mini-batch SGD — 每次使用一个小批量(通常 32-512 个样本),折中稳定性和效率
Momentum:加速梯度下降在相关方向的收敛,抑制震荡:
vt+1=γvt+η∇L(θt)
θt+1=θt−vt+1
AdaGrad:自适应学习率,对频繁出现的特征给予较小更新,对稀疏特征给予较大更新:
θt+1,i=θt,i−Gt,ii+ϵη∇L(θt,i)
其中 Gt 是历史梯度平方的累积和。
Adam(Adaptive Moment Estimation):结合 Momentum 和 RMSProp,是目前最常用的优化器:
mt=β1mt−1+(1−β1)gt
vt=β2vt−1+(1−β2)gt2
m^t=1−β1tmt,v^t=1−β2tvt
θt+1=θt−v^t+ϵηm^t
典型超参数:β1=0.9,β2=0.999,ϵ=10−8
牛顿法利用 Hessian 矩阵提供曲率信息:
θt+1=θt−ηH−1∇L(θt)
其中 H 是 Hessian 矩阵。牛顿法收敛更快(二次收敛),但计算 H−1 的代价是 O(d3),对于深度网络不实用。
拟牛顿法(BFGS、L-BFGS)近似 Hessian 矩阵,兼顾效率和收敛性。
对于约束优化问题:
xminf(x)s.t.gi(x)≤0,hj(x)=0
拉格朗日函数为:
L(x,α,β)=f(x)+i∑αigi(x)+j∑βjhj(x)
KKT 条件给出最优解的必要条件。这在 SVM 的推导中至关重要——通过拉格朗日对偶将原问题转化为对偶问题,从而引入核函数。
核方法(Kernel Methods)是机器学习中的一个经典框架,通过"核技巧"将线性模型扩展到非线性空间。
核心思想:将数据 x 隐式映射到高维特征空间 ϕ(x),使得原本线性不可分的数据在高维空间中变得线性可分。核函数定义为映射后的内积:
K(x,x′)=⟨ϕ(x),ϕ(x′)⟩
关键优势:不需要显式计算 ϕ(x)(可能无限维),直接通过核函数计算内积。
| 核函数 |
形式 |
特点 |
| 线性核 |
K(x,x′)=xTx′ |
等价于原始线性模型 |
| 多项式核 |
K(x,x′)=(γxTx′+r)d |
有限维多项式特征空间 |
| RBF 核(高斯核) |
K(x,x′)=exp(−γ∥x−x′∥2) |
无限维特征空间,最常用 |
| Sigmoid 核 |
K(x,x′)=tanh(γxTx′+r) |
类似两层神经网络 |
| 拉普拉斯核 |
K(x,x′)=exp(−γ∥x−x′∥1) |
对噪声更鲁棒 |
RBF 核的 γ 参数控制高斯函数的宽度:γ 越大,每个样本的影响范围越窄,模型越复杂(易过拟合);γ 越小,影响范围越宽,模型越平滑(易欠拟合)。
**支持向量机(SVM)**是核方法最经典的应用。SVM 的对偶形式完全依赖于核函数:
αmaxi=1∑nαi−21i=1∑nj=1∑nαiαjyiyjK(xi,xj)
决策函数也通过核函数表达:
f(x)=sign(i=1∑nαiyiK(xi,x)+b)
其他核方法应用:
- 核岭回归(KRR):岭回归的核化版本
- 核 PCA:主成分分析的核化版本,可提取非线性主成分
- 高斯过程:一种完全贝叶斯的核方法,同时给出预测和不确定性估计
Mercer 定理告诉我们什么样的函数可以作为有效的核函数:对称函数 K(x,x′) 是有效核函数当且仅当对于任意有限点集,核矩阵 Kij=K(xi,xj) 是半正定的。
这个性质保证了核方法最终优化问题仍然是凸的。
概率图模型(Probabilistic Graphical Models, PGMs)将图论与概率论结合,用图结构表示随机变量之间的条件依赖关系。PGM 的核心优势在于:
- 结构化表示:直观描述复杂变量关系
- 条件独立性:图结构编码了变量间的条件独立假设
- 高效推理:利用图结构分解概率计算
贝叶斯网络(Bayesian Network)是有向无环图(DAG),节点表示随机变量,边表示因果依赖关系。
联合概率分解:
P(X1,…,Xn)=i=1∏nP(Xi∣Pa(Xi))
其中 Pa(Xi) 是 Xi 的父节点集合。
示例:朴素贝叶斯分类器是最简单的贝叶斯网络。假设特征在给定类别下条件独立:
P(Y∣X1,…,Xd)∝P(Y)i=1∏dP(Xi∣Y)
尽管"特征独立"假设在现实中很少成立,朴素贝叶斯在许多问题上(如文本分类、垃圾邮件检测)仍然表现良好。
马尔可夫随机场(Markov Random Field, MRF)是无向图模型。节点间的边表示相互作用而非因果。
联合概率由团(Clique)上的势函数定义:
P(X)=Z1c∈C∏ψc(Xc)
其中 ψc 是团势函数(非负),Z=∑X∏cψc(Xc) 是归一化常数(配分函数)。
条件随机场(CRF)是 MRF 在条件概率建模上的推广:
P(Y∣X)=Z(X)1c∈C∏ψc(Yc,X)
CRF 在序列标注(命名实体识别、词性标注)和图像分割中被广泛使用。
HMM 是一种特殊的动态贝叶斯网络,用于序列数据的建模。包含两组随机变量:
- 隐状态 z1,…,zT:马尔可夫链,无记忆性
- 观测 x1,…,xT:由当前隐状态生成
三组参数:
- 初始状态概率 πi=P(z1=i)
- 转移概率 Aij=P(zt=j∣zt−1=i)
- 发射概率 P(xt∣zt)
三个基本问题:
- 评估:给定参数,计算观测序列概率 P(X∣θ) — Forward 算法
- 解码:给定观测,找到最可能的隐状态序列 — Viterbi 算法
- 学习:从观测序列估计参数 — Baum-Welch 算法(EM 算法的特例)
变分推断(Variational Inference, VI)是贝叶斯后验近似的主流方法。核心思想:用一个简单的分布 q(θ) 近似真后验 p(θ∣D),通过最小化 KL 散度:
q∗=argqminDKL(q(θ)∥p(θ∣D))
等价于最大化证据下界(ELBO):
ELBO(q)=Eq[logp(D,θ)]−Eq[logq(θ)]≤logp(D)
VAE(变分自编码器)将变分推断与神经网络结合,是现代生成模型的基石之一。
马尔可夫链蒙特卡洛(MCMC)方法通过构建一条马尔可夫链来从目标分布中采样,链的平稳分布就是目标分布。
Metropolis-Hastings 算法:
- 从提议分布 q(θ′∣θt) 采样候选 θ′
- 以概率 α=min(1,p(θt∣D)q(θ′∣θt)p(θ′∣D)q(θt∣θ′)) 接受 θ′
Gibbs 采样是 MH 的特例,每次只更新一个维度,条件分布已知时效率很高。
MCMC 是贝叶斯推断的黄金标准,但计算成本高,在大规模数据中通常不如变分推断实用。
深度学习将多层非线性变换组合成强大的函数逼近器。其数学基础包括前向传播、反向传播、各种激活函数和正则化技术。
一个 L 层全连接网络的前向传播:
z(1)=W(1)x+b(1)
a(1)=σ(z(1))
z(2)=W(2)a(1)+b(2)
a(2)=σ(z(2))
⋮
y^=a(L)=σ(z(L))
其中 W(l) 是权重矩阵,b(l) 是偏置向量,σ(⋅) 是激活函数。
反向传播从输出层开始,逐层计算梯度,应用链式法则:
对于输出层:δ(L)=∇aL⊙σ′(z(L))
对于隐藏层:δ(l)=((W(l+1))Tδ(l+1))⊙σ′(z(l))
梯度:∂W(l)∂L=δ(l)(a(l−1))T,∂b(l)∂L=δ(l)
其中 ⊙ 表示逐元素乘法。
| 激活函数 |
定义 |
特点 |
| Sigmoid |
σ(x)=1+e−x1 |
输出范围 (0,1),但梯度饱和(梯度消失) |
| Tanh |
tanh(x)=ex+e−xex−e−x |
输出范围 (-1,1),零中心化,缓解梯度消失有限 |
| ReLU |
ReLU(x)=max(0,x) |
计算简单,缓解梯度消失,但"神经元死亡"问题 |
| Leaky ReLU |
LReLU(x)=max(αx,x) |
解决 ReLU 死亡问题,α 通常取 0.01 |
| GELU |
GELU(x)=xΦ(x) |
Transformer 中广泛使用,更平滑的 ReLU 变体 |
| Swish |
Swish(x)=x⋅σ(x) |
Google 提出的自门控激活函数 |
梯度消失:Sigmoid 和 Tanh 在饱和区域梯度接近零,导致深层网络的前面层几乎不更新。
ReLU 的优势:在 x>0 区域梯度恒为 1,缓解了梯度消失。
| 任务 |
损失函数 |
形式 |
| 回归 |
均方误差 MSE |
n1∑(yi−y^i)2 |
| 回归(鲁棒) |
Huber 损失 |
在误差小时为 MSE,误差大时为 MAE |
| 二分类 |
二分类交叉熵 |
−n1∑[yilogy^i+(1−yi)log(1−y^i)] |
| 多分类 |
交叉熵(Softmax) |
−n1∑i∑kyiklogy^ik |
| 学习排序 |
Triplet 损失 |
max(∥f(a)−f(p)∥2−∥f(a)−f(n)∥2+α,0) |
正则化防止模型过拟合,本质上是引入对参数复杂度的惩罚。
L1/L2 正则化:
Lreg=L(θ)+λ∥θ∥p
- L2(权重衰减):λ∑θi2 — 使权重趋近于 0
- L1:λ∑∣θi∣ — 使权重变为稀疏(部分为 0)
Dropout:在训练时随机"丢弃"一部分神经元(以概率 p 将其输出置为零)。等效于在子网络集合上做集成学习。
Batch Normalization:对每层的输入做标准化:
x^(k)=Var[x(k)]+ϵx(k)−E[x(k)]
y(k)=γ(k)x^(k)+β(k)
其中 γ 和 β 是可学习的缩放和偏移参数。
Layer Normalization:与 Batch Normalization 不同,LN 对每个样本的所有特征做标准化,在 Transformer 和 RNN 中表现更好。
注意力机制的核心是计算查询 Q 与键 K 的相似度,再用 softmax 加权求和值 V:
Attention(Q,K,V)=softmax(dkQKT)V
缩放因子 dk 防止点积过大导致 softmax 梯度饱和。
多头注意力将 Q,K,V 投影到 h 个子空间,分别计算注意力再拼接:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
headi=Attention(QWiQ,KWiK,VWiV)
Transformer 架构由多头注意力和前馈网络交替堆叠,配合残差连接和层归一化。其成功可归因于:
- 并行计算:自注意力可并行计算所有位置的表示
- 长距离依赖:任意两个位置之间的路径长度为 1(对比 RNN 的 O(L))
- 可扩展性:堆叠更多层和参数可稳定提升性能(Scaling Law)
深度学习训练大量涉及对矩阵和向量的求导,理解矩阵微积分非常实用。
对于 f:Rd→R,梯度定义为偏导数的向量:
∇f(x)=[∂x1∂f,∂x2∂f,…,∂xd∂f]T
常用梯度:
- ∂x∂(aTx)=a
- ∂x∂(xTAx)=(A+AT)x
- 当 A 对称时:∂x∂(xTAx)=2Ax
对于 f:Rm×n→R:
- ∂W∂(aTWb)=abT
- ∂W∂∥W∥F2=2W
- ∂W∂21∥XW−Y∥F2=XT(XW−Y)(线性回归的标准梯度)
在神经网络中,链式法则用于反向传播。设 z=Wx+b,a=σ(z),损失 L=ℓ(a,y),则:
∂z∂L=∂a∂L⊙σ′(z)
∂W∂L=∂z∂LxT
∂b∂L=∂z∂L
∂x∂L=WT∂z∂L
- 使用 Log-Sum-Exp 技巧避免数值溢出:log(∑exi)=c+log(∑exi−c),其中 c=maxxi
- Softmax 实现时先减去最大值再计算指数
- 梯度裁剪(Gradient Clipping)防止梯度爆炸(RNN 训练中的常见问题)
| 方法 |
适用激活 |
初始化分布 |
| Xavier/Glorot |
Tanh, Sigmoid |
U(−6/(nin+nout),6/(nin+nout)) |
| He |
ReLU, Leaky ReLU |
N(0,2/nin) |
| Orthogonal |
RNN |
正交矩阵 |
| Zero |
Biases |
0 |
良好的初始化保持前向和反向传播中信号方差的稳定,避免梯度消失或爆炸。
- Step Decay:每 k 个 epoch 乘以 γ
- Cosine Annealing:ηt=ηmin+21(ηmax−ηmin)(1+cos(Ttπ))
- Warmup:线性增加学习率,稳定训练初期
- Reduce on Plateau:验证损失停滞时降低学习率
随着特征维度增加,数据在高维空间中变得稀疏。这意味着:
- 需要指数级增长的样本才能准确估计密度/距离
- 基于距离的方法(kNN、核密度估计)在高维空间中失效
- 所有样本到原点的距离趋于相等("高维球的体积集中在球壳")
缓解方法:降维(PCA、t-SNE、UMAP)、特征选择、流形假设(高维数据实际位于低维流形上)。
机器学习的数学体系是层层递进的:
- 线性代数提供表示工具(向量、矩阵、变换)
- 概率论与统计提供不确定性推理框架
- 信息论提供度量与比较分布的工具
- 优化理论提供训练算法
- 核方法与概率图模型提供结构化建模框架
- 深度学习数学提供大规模函数逼近的理论基础
- 《The Elements of Statistical Learning》(Hastie et al.)— 统计学习的经典教材
- 《Pattern Recognition and Machine Learning》(Bishop)— PGM 和贝叶斯方法的权威参考
- 《Deep Learning》(Goodfellow et al.)— 深度学习"花书",数学深度适中
- 《Convex Optimization》(Boyd & Vandenberghe)— 凸优化标准教材
- 《Probabilistic Graphical Models》(Koller & Friedman)— PGM 百科全书