统计学(Statistics)是收集、整理、分析、解释和呈现数据的科学。它为我们从不确定性中提取可靠信息提供了系统的方法论。作为数学的一个分支,统计学贯穿于自然科学、社会科学、工程技术和商业决策的方方面面,是数据驱动决策的基石。
统计学存在的根本原因在于变异(Variation) 。如果世界上的事物每次都完全相同,就不需要统计学了。正是由于个体之间的差异、测量误差和随机波动,我们需要统计学来区分:
系统性效应 :真正的模式或关系
随机波动 :偶然因素导致的变化
从抛硬币的结果到人群的身高分布,从股票的日收益率到药物临床试验的疗效差异,变异性无处不在。统计学提供了系统的方法来量化变异、识别模式并从噪声中提取信号。
总体(Population) :我们关心的所有个体的集合。可以是有限的(如某公司全部员工)或无限的(如某个生产过程的产品)。
样本(Sample) :从总体中选取的一部分个体,代表总体进行观测和研究。
我们很少能观察到整个总体(比如全人类的血压、所有灯泡的寿命),因此需要通过样本推断总体。抽样推断(Statistical Inference) 是统计学的核心任务。推断的可靠性取决于样本的代表性和大小。
抽样的基本原则 :
随机性 :每个个体有已知概率被抽中,减少选择偏倚
代表性 :样本应在关键特征上与总体一致
足够样本量 :样本越大,抽样误差越小
常见抽样方法包括简单随机抽样、分层抽样(先按层分组再随机抽取)、整群抽样(随机抽取群体)和系统抽样(按固定间隔抽取)。
统计学分为两大分支:
分支
目标
典型方法
描述统计学
总结和描述数据特征
均值、中位数、标准差、直方图、箱线图、四分位数
推断统计学
从样本推断总体
假设检验、置信区间、回归分析、贝叶斯推断
描述统计学回答"数据是什么样的",推断统计学回答"总体是什么样的以及不确定性有多大"。
描述统计学(Descriptive Statistics)通过数值指标和图形工具来刻画数据的核心特征。
均值(Mean) :所有观测值的算术平均。
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i
x ˉ = n 1 i = 1 ∑ n x i
均值充分利用了所有数据点的信息,但也容易受到极端值的影响。例如,在一个月收入分别为3000、3500、4000、5000、100000元的五人组中,均值为22900元,并不能反映大多数人的收入水平。
中位数(Median) :将数据排序后的中间值。当数据存在偏态或异常值时,中位数比均值更能反映"典型值"。上述例子中的中位数为4000元,更能代表组的典型收入。
众数(Mode) :出现频率最高的值。适用于分类数据(如最喜欢的颜色、最常用的浏览器)。一个分布可以有多个众数(双峰分布提示可能存在两个不同的群体)。
选择原则 :
对称分布 → 均值(信息利用率最高,方差最小)
偏态分布 → 中位数(稳健性更好)
分类数据 → 众数(唯一有意义的中心度量)
极差(Range) :最大值 - 最小值。简单但受极端值影响极大,且随着样本量增大而增大。
方差(Variance)与标准差(Standard Deviation) :度量数据围绕均值的波动程度。
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2
s 2 = n − 1 1 i = 1 ∑ n ( x i − x ˉ ) 2
s = s 2 s = \sqrt{s^2}
s = s 2
注意分母使用 n − 1 n-1n − 1 (而不是 n nn )是为了无偏估计 :当使用样本均值 x ˉ \bar{x}x ˉ 代替总体均值 μ \muμ 时,平方和会倾向于偏小,除以 n − 1 n-1n − 1 校正了这一偏倚。
标准差与原始数据同单位,是最常用的离散度指标。68-95-99.7 法则 :在正态分布中,约68%的数据落在均值±1个标准差内,95%在±2个标准差内,99.7%在±3个标准差内。
变异系数(CV) :C V = s / x ˉ CV = s / \bar{x}C V = s / x ˉ ,无量纲的离散度指标,用于比较不同量纲的变量离散程度(如比较身高和体重的变异程度)。
四分位距(IQR) :Q3 - Q1,即上四分位数与下四分位数的差值。不受极端值影响,常用于箱线图和异常值检测。通常将 Q 1 − 1.5 × I Q R Q1 - 1.5\times IQRQ 1 − 1 . 5 × I Q R 以下和 Q 3 + 1.5 × I Q R Q3 + 1.5\times IQRQ 3 + 1 . 5 × I Q R 以上的点标记为异常值。
偏度(Skewness) :衡量分布不对称程度。
正偏(右偏)→ 右侧拖尾更长,均值 > 中位数 > 众数
负偏(左偏)→ 左侧拖尾更长,均值 < 中位数 < 众数
收入分布通常正偏,人类寿命分布通常左偏(幼年夭折造成)
峰度(Kurtosis) :衡量分布尾部厚度(与正态分布比较)。
高峰度(Leptokurtic)→ 尾部更厚、极端值更多。正态分布的峰度为3,超额峰度 > 0 表示厚尾
低峰度(Platykurtic)→ 尾部更薄、极端值更少
金融资产收益率常呈现高峰度,意味"黑天鹅"风险大于正态预测
描述统计学的可视化工具:
直方图(Histogram) :展示数据分布的频数或频率。分组数(bin)选择是关键——过少掩盖细节,过多引入噪声。常用 Sturges 公式 k = ⌈ 2 n + 1 ⌉ k = \lceil \log_2 n + 1 \rceilk = ⌈ log 2 n + 1 ⌉
箱线图(Box Plot) :展示最小值、Q1、中位数、Q3、最大值及异常值。可并列多个箱线图比较不同组
散点图(Scatter Plot) :展示两个变量之间的相关关系。添加平滑曲线(LOESS)可显示非线性趋势
条形图(Bar Chart) :分类数据的对比。柱状图高度通常使用均值或总和
密度图(Density Plot) :平滑的概率密度估计(核密度估计)。带宽选择严重影响结果
小提琴图(Violin Plot) :箱线图的增强版,同时展示分布形状
Q-Q 图(Q-Q Plot) :检验数据是否符合某个理论分布
可视化原则 (参考 Edward Tufte):
数据-墨水比最大化:移除不必要的修饰
避免饼图:人眼难以比较角度大小,条形图总是更好的选择
坐标轴必须从0开始(条形图),但折线图可以适当裁剪以展示细微变化
颜色使用需要慎重:选择色盲友好的配色(如 ColorBrewer 方案)
⚠️ Hugo 的工程经验 :在团队数据报告中,我观察到两个常见可视化问题:一是"修饰过度"——3D 效果、渐变填充反而损害了信息传达;二是"选择性截断"——为强调差异故意裁剪 Y 轴范围,这在 A/B 测试报告中尤其有害。在做 KPI 看板时,我始终坚持 Tukey 的建议:"简单的绘图揭示复杂的事实,复杂的绘图掩盖简单的真相。"
概率是量化不确定性的数学语言。Kolmogorov 公理给出了概率的严格定义:
非负性 :P ( A ) ≥ 0 P(A) \geq 0P ( A ) ≥ 0 ,任何事件的概率不小于零
归一性 :P ( Ω ) = 1 P(\Omega) = 1P ( Ω ) = 1 ,全空间概率为1
可加性 :对互斥事件,P ( A ∪ B ) = P ( A ) + P ( B ) P(A \cup B) = P(A) + P(B)P ( A ∪ B ) = P ( A ) + P ( B )
条件概率 :已知事件B发生的情况下,A发生的概率。
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B) = \frac{P(A \cap B)}{P(B)}
P ( A ∣ B ) = P ( B ) P ( A ∩ B )
贝叶斯定理 ——统计学的核心公式之一:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)}
P ( A ∣ B ) = P ( B ) P ( B ∣ A ) P ( A )
它揭示了我们如何根据观测数据(B)更新对假设(A)的信念:后验概率 ∝ 似然 × 先验概率。这个简单的公式是整个贝叶斯统计的根基。
全概率公式 :P ( B ) = ∑ i P ( B ∣ A i ) P ( A i ) P(B) = \sum_i P(B|A_i)P(A_i)P ( B ) = ∑ i P ( B ∣ A i ) P ( A i ) ,用于将事件B的总概率分解为各个互斥且完备的假设下的条件概率加权和。
独立性 :两个事件独立当且仅当 P ( A ∩ B ) = P ( A ) P ( B ) P(A \cap B) = P(A)P(B)P ( A ∩ B ) = P ( A ) P ( B ) ,等价于 P ( A ∣ B ) = P ( A ) P(A|B) = P(A)P ( A ∣ B ) = P ( A ) 。注意独立性和互斥性是完全不同的概念——互斥事件通常高度不独立。
随机变量 :将样本空间映射到实数的函数。分为离散型(取值可数,如抛硬币正面次数)和连续型(取值连续,如身高)。
概率质量函数(PMF) :离散随机变量取特定值的概率 P ( X = x ) P(X = x)P ( X = x ) 。
概率密度函数(PDF) :连续随机变量的密度函数,概率为曲线下的面积 P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a \leq X \leq b) = \int_a^b f(x)dxP ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x 。
累积分布函数(CDF) :F ( x ) = P ( X ≤ x ) F(x) = P(X \leq x)F ( x ) = P ( X ≤ x ) ,对离散和连续的随机变量都适用,且适用于任意分布。
期望与方差 :
期望(均值):E [ X ] = ∑ x ⋅ P ( X = x ) E[X] = \sum x \cdot P(X=x)E [ X ] = ∑ x ⋅ P ( X = x ) 或 E [ X ] = ∫ x ⋅ f ( x ) d x E[X] = \int x \cdot f(x)dxE [ X ] = ∫ x ⋅ f ( x ) d x
方差:V a r ( X ) = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 Var(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2V a r ( X ) = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2
期望是线性算子:E [ a X + b Y ] = a E [ X ] + b E [ Y ] E[aX + bY] = aE[X] + bE[Y]E [ a X + b Y ] = a E [ X ] + b E [ Y ]
方差可加性的前提是变量独立:V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) + 2 C o v ( X , Y ) Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) + 2 C o v ( X , Y )
分布
类型
参数
概率函数
期望
方差
适用场景
伯努利分布
离散
p pp
P ( X = 1 ) = p P(X=1)=pP ( X = 1 ) = p
p pp
p ( 1 − p ) p(1-p)p ( 1 − p )
单次试验结果(成功/失败)
二项分布 B ( n , p ) B(n,p)B ( n , p )
离散
n , p n,pn , p
( n k ) p k ( 1 − p ) n − k \binom{n}{k}p^k(1-p)^{n-k}( k n ) p k ( 1 − p ) n − k
n p npn p
n p ( 1 − p ) np(1-p)n p ( 1 − p )
n nn 次独立伯努利试验的成功次数
泊松分布 P o i ( λ ) Poi(\lambda)P o i ( λ )
离散
λ \lambdaλ
e − λ λ k / k ! e^{-\lambda}\lambda^k/k!e − λ λ k / k !
λ \lambdaλ
λ \lambdaλ
固定时间段事件发生次数
几何分布
离散
p pp
( 1 − p ) k − 1 p (1-p)^{k-1}p( 1 − p ) k − 1 p
1 / p 1/p1 / p
( 1 − p ) / p 2 (1-p)/p^2( 1 − p ) / p 2
首次成功所需试验次数
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2)N ( μ , σ 2 )
连续
μ , σ 2 \mu,\sigma^2μ , σ 2
1 σ 2 π e − ( x − μ ) 2 / ( 2 σ 2 ) \frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/(2\sigma^2)}σ 2 π 1 e − ( x − μ ) 2 / ( 2 σ 2 )
μ \muμ
σ 2 \sigma^2σ 2
大量独立随机因素叠加的极限分布
均匀分布 U ( a , b ) U(a,b)U ( a , b )
连续
a , b a,ba , b
1 / ( b − a ) 1/(b-a)1 / ( b − a )
( a + b ) / 2 (a+b)/2( a + b ) / 2
( b − a ) 2 / 12 (b-a)^2/12( b − a ) 2 / 1 2
区间内完全等概率
指数分布 E x p ( λ ) Exp(\lambda)E x p ( λ )
连续
λ \lambdaλ
λ e − λ x \lambda e^{-\lambda x}λ e − λ x
1 / λ 1/\lambda1 / λ
1 / λ 2 1/\lambda^21 / λ 2
泊松过程的事件等待时间
伽马分布
连续
k , θ k,\thetak , θ
x k − 1 e − x / θ θ k Γ ( k ) \frac{x^{k-1}e^{-x/\theta}}{\theta^k\Gamma(k)}θ k Γ ( k ) x k − 1 e − x / θ
k θ k\thetak θ
k θ 2 k\theta^2k θ 2
等待k kk 次事件的时间
Beta 分布
连续
α , β \alpha,\betaα , β
x α − 1 ( 1 − x ) β − 1 B ( α , β ) \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}B ( α , β ) x α − 1 ( 1 − x ) β − 1
α α + β \frac{\alpha}{\alpha+\beta}α + β α
—
概率的分布(贝叶斯共轭先验)
t 分布
连续
自由度 d f dfd f
—
0 00 (d f > 1 df > 1d f > 1 )
d f d f − 2 \frac{df}{df-2}d f − 2 d f (d f > 2 df > 2d f > 2 )
小样本均值推断
F 分布
连续
d f 1 , d f 2 df_1, df_2d f 1 , d f 2
—
d f 2 d f 2 − 2 \frac{df_2}{df_2-2}d f 2 − 2 d f 2
—
方差比较(ANOVA)
卡方分布 χ k 2 \chi^2_kχ k 2
连续
自由度 k kk
—
k kk
2 k 2k2 k
分类变量独立性检验
对数正态分布
连续
μ , σ 2 \mu,\sigma^2μ , σ 2
—
exp ( μ + σ 2 / 2 ) \exp(\mu+\sigma^2/2)exp ( μ + σ 2 / 2 )
—
乘积过程(收入、股票价格)
指数族分布 :许多常见分布(正态、伯努利、泊松、伽马、Beta)都可以归入指数族分布,具有统一的数学形式,在广义线性模型(GLM)中有重要应用。
大数定律(Law of Large Numbers) :随着样本量增加,样本均值趋近于总体均值。这是保险业精算的基础——保险公司无法预测个体的损失,但能精确预测大量保单的平均损失。
中心极限定理(Central Limit Theorem, CLT) :无论原始分布是什么,当样本量足够大时,样本均值的抽样分布近似正态分布。这是统计推断的基石——
让我们能在不知道总体分布时进行推断
解释了为什么正态分布在自然界中如此普遍
n ≥ 30 n \geq 30n ≥ 3 0 通常被认为"足够大"(对于非重度偏态分布)
CLT的正式陈述 :设 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_nX 1 , X 2 , . . . , X n 来自均值为 μ \muμ 、方差为 σ 2 \sigma^2σ 2 的独立同分布随机变量,则标准化的样本均值:
X ˉ − μ σ / n → d N ( 0 , 1 ) 当 n → ∞ \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0,1) \quad \text{当} \quad n \to \infty
σ / n X ˉ − μ d N ( 0 , 1 ) 当 n → ∞
⚠️ Hugo 的工程感悟 :在实际数据分析中,CLT 不是万能的。金融时间序列经常呈现"厚尾"特征,300个样本的均值可能仍然偏离正态分布。收入分布极度右偏时,可能需要 n > 1000 n > 1000n > 1 0 0 0 才能让 CLT 充分生效。在这些情况下,考虑使用自助法(Bootstrap)作为非参数替代,或者使用更稳健的推断方法。在产品分析的A/B测试中,我也观察到转化率接近0或1时,二项分布的性质导致CLT收敛极慢——这时用Bootstrap或精确检验更可靠。
点估计(Point Estimation) :用一个数值估计总体参数。
常用估计量:
样本均值 x ˉ \bar{x}x ˉ 估计总体均值 μ \muμ
样本方差 s 2 s^2s 2 估计总体方差 σ 2 \sigma^2σ 2
样本比例 p ^ \hat{p}p ^ 估计总体比例 p pp
评估估计量的标准 :
无偏性(Unbiasedness) :E ( θ ^ ) = θ E(\hat{\theta}) = \thetaE ( θ ^ ) = θ ,即多次抽样下估计量的期望等于真实参数值
有效性(Efficiency) :在所有无偏估计量中,方差最小的那个最有效
一致性(Consistency) :样本量增大时,估计量收敛到真实参数值。这是大样本性质,在实践中非常重要
充分性(Sufficiency) :估计量是否充分利用了样本中的所有相关信息
最大似然估计(Maximum Likelihood Estimation, MLE) :选择使观察到当前数据的概率(似然)最大的参数值。
θ ^ M L E = arg θ L ( θ ; x 1 , . . . , x n ) = arg θ ∏ i = 1 n f ( x i ∣ θ ) \hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta; x_1, ..., x_n) = \arg\max_{\theta} \prod_{i=1}^n f(x_i|\theta)
θ ^ M L E = arg θ max L ( θ ; x 1 , . . . , x n ) = arg θ max i = 1 ∏ n f ( x i ∣ θ )
MLE 在大样本下具有优良性质:
一致性:随着样本量增加,MLE 收敛到真实参数
渐近有效性:当样本量足够大时,MLE 达到 Cramér-Rao 下界(最小可能方差)
渐近正态性:θ ^ M L E ∼ N ( θ , I ( θ ) − 1 ) \hat{\theta}_{MLE} \sim N(\theta, I(\theta)^{-1})θ ^ M L E ∼ N ( θ , I ( θ ) − 1 ) ,其中 I ( θ ) I(\theta)I ( θ ) 为 Fisher 信息量
不变性:如果 θ ^ \hat{\theta}θ ^ 是 θ \thetaθ 的 MLE,则 g ( θ ^ ) g(\hat{\theta})g ( θ ^ ) 是 g ( θ ) g(\theta)g ( θ ) 的 MLE
矩估计(Method of Moments) :更简单的替代方法,令样本矩等于理论矩求解。虽然通常不如 MLE 有效(方差更大),但计算简单,在分布复杂时常用作 MLE 的初始值。
置信区间(Confidence Interval) :以一定置信水平覆盖真实参数的区间。
总体均值的置信区间(σ \sigmaσ 已知):
x ˉ ± z α / 2 σ n \bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}
x ˉ ± z α / 2 n σ
总体均值的置信区间(σ \sigmaσ 未知):
x ˉ ± t α / 2 , n − 1 s n \bar{x} \pm t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}
x ˉ ± t α / 2 , n − 1 n s
总体比例的置信区间:
p ^ ± z α / 2 p ^ ( 1 − p ^ ) n \hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
p ^ ± z α / 2 n p ^ ( 1 − p ^ )
95% 置信区间的含义 :如果重复抽样100次,计算100个置信区间,大约95个会包含真实均值。它不是 "真实参数有95%概率落在区间内"——参数是固定的,随机的是区间。
解读陷阱 :这是统计学中最容易被误解的概念之一。正确理解:置信区间是对随机过程的陈述,而非对特定参数的陈述。单个置信区间要么包含真实值要么不包含,不存在概率属性。
样本量估计 :在设计实验时需要预先确定样本量。对于均值估计:
n = ( z α / 2 ⋅ σ d ) 2 n = \left( \frac{z_{\alpha/2} \cdot \sigma}{d} \right)^2
n = ( d z α / 2 ⋅ σ ) 2
其中 d dd 是期望的边际误差。
假设检验(Hypothesis Testing)是一种决策框架,用于判断样本数据是否提供了足够的证据来支持某种声明。它是统计推断中最常用也是最容易被滥用的工具。
设立假设 :原假设 H 0 H_0H 0 (通常代表现状或无效应)和备择假设 H 1 H_1H 1 (代表我们想证明的)
选择检验统计量 :如 t 统计量、z 统计量、F 统计量
确定显著性水平 α \alphaα :通常取 0.05,但应根据具体场景调整
计算 p 值 :在原假设为真的条件下,观察到当前或更极端结果的概率
做出决策 :若 p < α \alphaα ,拒绝 H 0 H_0H 0 ,认为统计显著
检验类型 :
单侧检验 :备择假设是方向性的(μ > μ 0 \mu > \mu_0μ > μ 0 或 μ < μ 0 \mu < \mu_0μ < μ 0 ),检验功效更高
双侧检验 :备择假设是非方向性的(μ ≠ μ 0 \mu \neq \mu_0μ = μ 0 ),更保守但也更常见
决策
H 0 H_0H 0 为真
H 0 H_0H 0 为假
拒绝 H 0 H_0H 0
I 类错误(α \alphaα ,假阳性)
正确检测(1 − β 1-\beta1 − β ,即检验功效)
不拒绝 H 0 H_0H 0
正确
II 类错误(β \betaβ ,假阴性)
I 类错误 :假阳性——认为有统计意义,实际只是随机波动。
II 类错误 :假阴性——错过了真实效应。
检验功效(Power) :正确拒绝假的原假设的概率,1 − β 1-\beta1 − β 。理想值 ≥ 0.8 \geq 0.8≥ 0 . 8 。
影响因素 :
效应量越大 → 功效越高(更容易检测到)
样本量越大 → 功效越高
α \alphaα 越大 → 功效越高(但I类错误风险增加)
测量误差越小 → 功效越高
权衡原则 :减小 α \alphaα 会增大 β \betaβ (除非增加样本量)。在医学试验中,I 类错误(批准无效药物)风险更大;在初筛诊断中,II 类错误(漏诊)后果更严重。
先验功效分析 :实验设计阶段就应计算所需样本量,而非事后分析。常用工具:G*Power、R 的 pwr 包、Python 中的 statsmodels.stats.power。
⚠️ Hugo 的踩坑经验 :在一次 A/B 测试中,团队迭代运行了8次检验(每周看一次结果),当出现 p < 0.05 时就宣布实验结束。这是典型的"多次查看"(peeking)问题——前4次都不显著,第5次偶然显著。严格的频率学派方法要求预先确定样本量,不能提前查看结果。我们后来改用贝叶斯方法(使用 PyMC)来做序贯分析,允许随着数据积累不断更新后验分布,避免了这个问题。另一个踩坑是用 t 检验前没有检查方差齐性——一个实验组转化率波动远大于对照组,使用双样本 t 检验后 p 值偏低,改用 Welch t 检验后才得到正确结果。
检验
用途
假设条件
备注
单样本 t 检验
样本均值与已知值比较
数据近似正态
t = x ˉ − μ 0 s / n t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}t = s / n x ˉ − μ 0
独立双样本 t 检验
两组均值比较
正态性、方差齐性
Welch 校正版不要求方差齐性
配对 t 检验
同一样本前后比较
差值近似正态
消除个体间变异,功效更高
卡方检验
分类变量独立性/拟合度
期望频数 ≥ \geq≥ 5
小样本用 Fisher 精确检验
单因素 ANOVA
多组均值比较
正态性、方差齐性
事后多重比较(Tukey HSD)
重复测量 ANOVA
同一样本多次测量
球形假设
不满足时用 Greenhouse-Geisser 校正
Wilcoxon 秩和检验
非参数两组比较
无分布假设
Mann-Whitney U 检验
Kruskal-Wallis 检验
非参数多组比较
无分布假设
是 ANOVA 的非参数替代
Kolmogorov-Smirnov 检验
分布拟合或两样本比较
连续数据
对分布差异敏感
McNemar 检验
配对分类数据
2×2 配对四格表
如治疗前后相同患者的分类结果
Friedman 检验
非参数重复测量
无分布假设
重复测量 ANOVA 的非参数替代
Shapiro-Wilk 检验
正态性检验
—
小样本下比 KS 检验功效更高
p 值是统计学中最被误解的概念之一。常见误区:
❌ "p=0.03 意味着 H 0 H_0H 0 为假的概率是 97%" → p 值不是 H 0 H_0H 0 为真的概率
❌ "p=0.03 意味着结果有 97% 的把握" → p 值关注的是数据,而非参数
❌ "p > 0.05 意味着 H 0 H_0H 0 为真" → 可能样本量不够,检验功效不足
❌ "p=0.04 和 p=0.06 有本质差异" → 二者应被看作连续的证据强度
复制危机(Replication Crisis) :心理学、医学等领域大量已发表研究无法复现。原因分析:
p-hacking:反复试探不同分析方法直到 p < 0.05
发表偏倚(Publication Bias):显著结果更可能被发表,导致元分析时效应量被高估
低统计功效:许多研究样本量不足
可疑研究实践(QRPs):选择性报告、事后排除异常值、多重比较不校正
2016年,美国统计学会(ASA)发布了关于 p 值的声明,核心要点:
p 值可以表明数据与统计模型不相容的程度
p 值不度量原假设为真的概率或数据由随机因素产生的概率
科学结论和商业决策不应仅基于 p 值是否超过某个阈值
恰当推断需要完整的报告和透明度
p 值或统计显著性不反映效应量的大小或结果的重要性
p 值本身不提供关于证据的良好度量
更好的实践 :报告效应量(Cohen's d、r rr 、η 2 \eta^2η 2 )、置信区间、提供原始数据和代码、预注册研究计划。
同时进行多个假设检验时,每个单独检验的 α \alphaα 会导致整体的I类错误率膨胀。例如,同时做20个独立检验,预期至少有一个因随机性而显著的概率为 1 − ( 0.95 ) 20 ≈ 64 % 1 - (0.95)^{20} \approx 64\%1 − ( 0 . 9 5 ) 2 0 ≈ 6 4 % 。
常用校正方法 :
Bonferroni 校正 :每个检验使用 α / k \alpha/kα / k (k kk 为检验次数)。最保守,I类错误控制好但功效损失大
Holm-Bonferroni 方法 :逐步法,比标准 Bonferroni 功效略高
Benjamini-Hochberg 方法(FDR) :控制错误发现率(False Discovery Rate),适合全基因组关联分析等高通量数据
Tukey HSD :ANOVA 后所有两两比较的专门方法
Dunnett 检验 :多个处理组与一个对照组比较
回归分析(Regression Analysis)研究变量之间的统计关系,是统计学中应用最广泛的工具之一。
简单线性回归 (一个自变量):
y = β 0 + β 1 x + ε y = \beta_0 + \beta_1 x + \varepsilon
y = β 0 + β 1 x + ε
多元线性回归 (多个自变量):
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p + ε y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p + ε
最小二乘法(OLS) :找到使残差平方和最小的系数估计。
β ^ = ( X T X ) − 1 X T y \hat{\beta} = (X^T X)^{-1} X^T y
β ^ = ( X T X ) − 1 X T y
高斯-马尔可夫定理 :在线性模型中,如果误差满足零均值、同方差且不相关,则 OLS 估计量是所有线性无偏估计量中方差最小的(BLUE)。
模型假设 (对于推断目的,预测角度容忍度较高):
线性性 :因变量和自变量的关系是线性的(可以变换后满足)
独立性 :观测值相互独立(时间序列中常违反,需考虑自相关)
同方差性 :残差的方差恒定(异方差不影响系数估计的无偏性,但影响标准误)
正态性 :残差服从正态分布(对系数显著性检验的准确性重要)
无完全多重共线性 :自变量之间不是完全线性相关
残差图(Residuals vs Fitted) :残差随机分布在0水平线周围 → 假设成立;呈现喇叭状发散 → 异方差;呈现曲线模式 → 非线性
Q-Q 图 :残差沿对角线分布 → 正态性假设成立
尺度-位置图(Scale-Location Plot) :标准化残差的平方根对拟合值,检查同方差性
Cook's D 距离 :衡量每个数据点对回归系数的整体影响。通常取 Cook's D > 4/n 为潜在影响点
多重共线性 :VIF(方差膨胀因子)> 10 表示严重共线性。VIF 计算:V I F j = 1 / ( 1 − R j 2 ) VIF_j = 1/(1-R_j^2)V I F j = 1 / ( 1 − R j 2 ) ,其中 R j 2 R_j^2R j 2 是 x j x_jx j 对其他自变量的回归 R 2 R^2R 2
Durbin-Watson 检验 :检验残差自相关
处理方案 :
异方差 → 使用稳健标准误(Huber-White sandwich estimator)
共线性 → 删除相关变量、PCA、岭回归、Lasso
非线性 → 添加多项式项、交互项、或使用广义加性模型(GAM)
异常值 → 检查数据质量、使用稳健回归(如 Huber 损失)
R 2 R^2R 2 :模型解释的方差比例。但 R 2 R^2R 2 随着变量增多只增不减,容易过拟合
调整 R 2 R^2R 2 :R a d j 2 = 1 − ( n − 1 ) ( 1 − R 2 ) n − p − 1 R^2_{adj} = 1 - \frac{(n-1)(1-R^2)}{n-p-1}R a d j 2 = 1 − n − p − 1 ( n − 1 ) ( 1 − R 2 ) ,惩罚变量数量
AIC :− 2 ln ( L ) + 2 p -2\ln(L) + 2p− 2 ln ( L ) + 2 p ,其中 p pp 为参数个数。越低越好,适合预测
BIC :− 2 ln ( L ) + p ln ( n ) -2\ln(L) + p\ln(n)− 2 ln ( L ) + p ln ( n ) 。对复杂模型惩罚更严厉,适合解释
MSE / RMSE / MAE :预测误差指标,可用于交叉验证选择模型
k 折交叉验证 :将数据分成 k 份,轮流用 k-1 份训练、1 份验证,取平均误差
线性回归要求因变量服从正态分布,但实际中因变量可能是二分类、计数数据或非正态连续数据。GLM 统一了这些情况:
三要素 :
随机成分 :因变量的分布(指数族)
系统成分 :线性预测器 η = X β \eta = X\betaη = X β
连接函数 :g ( μ ) = η g(\mu) = \etag ( μ ) = η ,将期望与线性预测器连接
常见 GLM 类型 :
因变量类型
分布
链接函数
模型
连续
正态
恒等
线性回归
二分类
伯努利/二项
Logit
逻辑回归
二分类
伯努利/二项
Probit
Probit 回归
计数
泊松
Log
泊松回归
计数(过度离散)
负二项
Log
负二项回归
偏态正数
伽马
Log/倒数
伽马回归
当因变量是二分类时(如是否患病、是否流失),使用逻辑回归。Sigmoid 函数将线性组合映射到 [0,1]:
P ( y = 1 ) = 1 1 + e − ( β 0 + β 1 x 1 + ⋯ + β p x p ) P(y=1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p)}}
P ( y = 1 ) = 1 + e − ( β 0 + β 1 x 1 + ⋯ + β p x p ) 1
Odds Ratio(优势比) :exp ( β j ) \exp(\beta_j)exp ( β j ) 表示其他变量不变时,x j x_jx j 增加一个单位,优势比(odds = p/(1-p))乘以 exp ( β j ) \exp(\beta_j)exp ( β j ) 。这是逻辑回归最常见的解释方式。
分类阈值 :通常以 0.5 为界,但可以根据业务需求调整。用 ROC 曲线和 AUC 评估模型整体性能。
当变量数量多或存在共线性时,正则化通过在损失函数中加入惩罚项来防止过拟合:
岭回归(Ridge Regression) :L2 惩罚 λ ∑ β j 2 \lambda \sum \beta_j^2λ ∑ β j 2 ,收缩系数但不将其压缩到零。适合变量间高度相关的情况
Lasso 回归 :L1 惩罚 λ ∑ ∣ β j ∣ \lambda \sum |\beta_j|λ ∑ ∣ β j ∣ ,可以将不重要的系数精确压缩为零(同时做变量选择)。适合真正的稀疏模型
Elastic Net :L1 + L2 混合 λ ( α ∑ ∣ β j ∣ + 1 − α 2 ∑ β j 2 ) \lambda \left( \alpha \sum |\beta_j| + \frac{1-\alpha}{2} \sum \beta_j^2 \right)λ ( α ∑ ∣ β j ∣ + 2 1 − α ∑ β j 2 ) 。结合了两者优点
⚠️ Hugo 的经验 :处理高维数据时(如基因表达数据 p ≫ n p \gg np ≫ n ),Lasso 优于逐步回归。逐步回归的选择过程会导致 p 值和 R 2 R^2R 2 严重有偏——这是"变量选择后的推断"问题(post-selection inference)。Lasso 配合交叉验证选择 λ \lambdaλ 更稳健。在实际项目中,我倾向于 Elastic Net(设 α = 0.5 \alpha=0.5α = 0 . 5 ),它在高相关分组变量存在时表现比纯 Lasso 更稳定。
当数据具有层次结构(学生嵌套在班级中、患者嵌套在医院中)时,需要混合效应模型处理组内相关:
y i j = β 0 + β 1 x i j + u j + ε i j y_{ij} = \beta_0 + \beta_1 x_{ij} + u_j + \varepsilon_{ij}
y i j = β 0 + β 1 x i j + u j + ε i j
其中 u j u_ju j 是随机截距(簇效应),允许不同簇有不同的基线水平。
理论基础 :固定效应是我们关心的主要解释变量,随机效应是来自更大总体的随机样本。选择随机效应还是固定效应取决于研究的推断范围——如果只关心这三个特定医院,用固定效应;如果将它们视为所有医院的样本,用随机效应。
贝叶斯统计(Bayesian Statistics)将参数视为随机变量 ,通过先验分布(Prior)和数据(Data)更新信念得到后验分布(Posterior):
P ( θ ∣ D ) = P ( D ∣ θ ) × P ( θ ) P ( D ) P(\theta|D) = \frac{P(D|\theta) \times P(\theta)}{P(D)}
P ( θ ∣ D ) = P ( D ) P ( D ∣ θ ) × P ( θ )
(后验 ∝ 似然 × 先验)
与频率学派的核心区别:
维度
频率学派
贝叶斯学派
参数性质
未知但固定
随机变量
概率定义
长期频率
信念度量
主观性
纯数据驱动
先验纳入先验知识
推断结果
点估计 + 置信区间
后验分布
不确定性表达
基于重复抽样
概率密度直接表达
参数的不确定性
CI 不给出概率陈述
后验区间给出概率陈述
序贯学习
困难(需控制累积I类错误)
自然(先验→后验→新先验)
无信息先验(Non-informative) :如均匀分布、Jeffreys 先验 p ( θ ) ∝ I ( θ ) p(\theta) \propto \sqrt{I(\theta)}p ( θ ) ∝ I ( θ ) ,让数据完全说话
共轭先验(Conjugate Prior) :先验与后验属于同一分布族,计算方便:
Beta 先验 ⇄ 二项似然 → Beta 后验
正态先验 ⇄ 正态似然 → 正态后验
伽马先验 ⇄ 泊松似然 → 伽马后验
弱信息先验(Weakly Informative) :如 N ( 0 , 1 0 2 ) N(0, 10^2)N ( 0 , 1 0 2 ) ,提供温和的收缩,在不影响推断的前提下增加数值稳定性
⚠️ Hugo 的实践心得 :在工程应用中,即使自认为是"客观"的频率学派,其实也在使用某种先验(例如假设数据是从某分布中抽样的)。贝叶斯方法的优势是透明 ——明确表达先验假设,可以质疑和替换。在 A/B 测试的序贯分析中,贝叶斯方法比频率学派更自然,因为每次观察到新数据都可以优雅地更新后验,而不需要像频率学派那样做"提前终止"的复杂校正。
对于简单模型(共轭情形),后验有解析解。对于复杂模型,需要数值方法:
MCMC(马尔可夫链蒙特卡洛)方法 :
Metropolis-Hastings 算法 :提议分布生成候选点,以接受概率决定是否采纳
Gibbs 采样 :M-H的特殊情况,依次从每个参数的全条件分布中采样
Hamiltonian Monte Carlo(HMC) :利用梯度信息,在高维空间中更高效。No-U-Turn Sampler(NUTS)是 HMC 的改进
MCMC 诊断 :迹图检查链的混洗、R ^ < 1.1 \hat{R} < 1.1R ^ < 1 . 1 表示链收敛、有效样本量(ESS)衡量采样效率
现代概率编程框架使 MCMC 变得普及:
Stan(Python 的 PyStan,R 的 rstan,CmdStanR)
PyMC(Python 的贝叶斯建模库)
BUGS / JAGS(经典框架)
变分推断(VI) :MCMC 的更快替代,将后验推断转化为优化问题。适合大规模数据和深度学习场景,但倾向于低估后验方差。
不依赖于特定概率分布假设的方法:
核密度估计(KDE) :f ^ ( x ) = 1 n h ∑ i = 1 n K ( x − x i h ) \hat{f}(x) = \frac{1}{nh}\sum_{i=1}^n K\left(\frac{x-x_i}{h}\right)f ^ ( x ) = n h 1 ∑ i = 1 n K ( h x − x i ) ,带宽 h hh 是关键——Silverman 规则或交叉验证选择
自助法(Bootstrap) :从原始数据中有放回地重抽样,估计统计量的抽样分布。对中位数、分位数等复杂统计量比解析公式更可靠。Bootstrap 置信区间有百分位法、BCa 法等变体
排列检验(Permutation Test) :通过随机重新分配组标签构建零分布,无需分布假设
Mann-Whitney U 检验 :独立两组非参数比较
Kruskal-Wallis 检验 :多组非参数比较
Spearman 秩相关 :非参数相关分析
随机化实验(RCT) :因果推断的黄金标准。
随机分组消除可测和不可测的混杂因素
盲法(单盲/双盲)减少参与者/实验者的偏倚
安慰剂对照控制自然演化和安慰剂效应
意向性治疗分析(ITT)保持随机化的好处
因果关系 ≠ 相关关系 :
"冰淇淋销量与溺水人数"正相关 → 季节(夏天)是混杂因子
"优秀学生参加辅导班且成绩更好" → 选择偏倚,优秀学生本来就更可能参加
"喝红酒的人更健康" → 可能由社会经济地位等混杂因素驱动
因果推断的现代方法 :
双重差分法(DID) :比较处理组与对照组在干预前后的差异变化。关键假设:平行趋势假设
工具变量(IV) :处理内生性问题。找到只通过处理变量影响结果的外生变量。经典例子:距离大学远近作为教育年限的 IV
倾向性评分匹配(PSM) :通过估计接受处理的概率,匹配处理组和对照组的个体来模拟随机化
断点回归(RDD) :利用阈值附近个体被随机分配到处理组或对照组的性质
DAG(有向无环图) :通过图模型明确表达因果假设,识别最小充分调整集
现代数据科学面临 p ≫ n p \gg np ≫ n 的挑战。
主成分分析(PCA) :降维新特征,提取最大方差方向,用于降维、可视化和去噪
因子分析(FA) :假设观测变量由更少的潜在因子驱动,常见于心理测量学
t-SNE / UMAP :非线性降维,主要用于可视化高维数据的局部结构
聚类分析 :K-means(基于距离的划分)、层次聚类(生成树状图)、DBSCAN(基于密度,可发现任意形状簇)
典型相关分析(CCA) :寻找两组变量之间的线性组合,使相关性最大化
时间序列数据具有特殊结构(自相关、趋势、季节性和波动率聚集),需要专门的方法。
平稳性 :平稳性是时间序列分析的核心假设。常见检验:ADF 检验、KPSS 检验。非平稳序列需要差分或平稳化变换。
经典方法 :
ARIMA(p,d,q) :自回归(AR)+ 差分(I)+ 移动平均(MA)。Box-Jenkins 方法提供了系统建模框架
季节性 ARIMA(SARIMA) :在 ARIMA 基础上加入季节性成分
指数平滑法 :Holt-Winters 方法,包含水平、趋势和季节成分。适合预测广泛应用
VAR(向量自回归) :多变量时间序列模型
高级方法 :
GARCH :建模条件异方差和波动率聚集,金融时间序列的核心工具
状态空间模型 / 卡尔曼滤波 :将隐藏状态与观测值分离,递归更新
Prophet :Facebook 开发的可分解时间序列模型,对缺失值和异常值稳健
长短期记忆网络(LSTM) :深度学习方法,适合复杂非线性时间序列
用于分析"事件发生时间"数据,其中存在删失(censoring,即未观察到事件发生):
Kaplan-Meier 曲线 :估计生存函数
Cox 比例风险模型 :半参数方法,研究协变量对生存时间的影响
加速失效时间模型 :直接建模对数生存时间
传统统计与现代机器学习的界限越来越模糊:
交叉验证 :从统计学的概念发展为核心技术
Lasso/Ridge :源于统计正则化,是 ML 的重要组件
决策树/随机森林/梯度提升 :非参数统计方法的现代发展
深度学习 :大量参数的非线性统计模型,依赖正则化和大规模计算
偏差-方差权衡(Bias-Variance Tradeoff) 是统计学习的核心概念:
简单模型 → 高偏差、低方差(欠拟合,对训练数据缺乏足够的灵活性)
复杂模型 → 低偏差、高方差(过拟合,对训练数据过度适应,泛化差)
最优模型在两者间取得平衡,可通过交叉验证找到
实际数据几乎总是存在缺失值。常用策略:
完全删除 :仅分析完整记录。简单但可能导致严重偏倚和低功效
均值/中位数填充 :简单但压缩方差,扭曲关系
多重插补(Multiple Imputation) :生成多个完整数据集分别分析后合并结果,保留不确定性
极大似然方法 :利用观测数据的似然直接推断
模型预测填充 :用其他变量预测缺失值
缺失机制 :
MCAR(完全随机缺失):可忽略
MAR(随机缺失):可基于观测变量建模
MNAR(非随机缺失):需要专门的敏感度分析
这两种范式之争已有两百年历史:
频率学派 :概率是事件在长期重复试验中的相对频率。参数是固定但未知的常数。统计推断严格基于重复抽样的性质。代表人物:Ronald Fisher、Jerzy Neyman、Egon Pearson。优势:客观,不依赖主观先验,计算相对简单。
贝叶斯学派 :概率是信念度量的数值表达。参数服从概率分布,先验分布表达分析前对参数的认识。代表人物:Thomas Bayes、Pierre-Simon Laplace、Bruno de Finetti、Harold Jeffreys。优势:直觉自然,适合序贯决策,处理不确定性直接。
在实践中,明智的统计学家会灵活使用两种范式 。频率学派工具计算简单、应用广泛;贝叶斯方法在复杂模型和序列分析中更有优势。现代统计软件中,很多方法同时提供了频率和贝叶斯的实现。
统计显著性 ≠ 实际重要性 。
在大样本中,即使是微小的差异也会达到统计显著。例如检测到两组均值差距仅为 0.01 个标准差,只要 n nn 够大(如 n = 1 0 6 n=10^6n = 1 0 6 ),p 值就会小于 1 0 − 6 10^{-6}1 0 − 6 。但是,这个差异在商业上或医学上可能完全无意义。
效应量参考 :
Cohen's d:0.2(小效应)、0.5(中等)、0.8(大效应)
Pearson's r:0.1(小)、0.3(中等)、0.5(大)
Cramer's V:分类变量的关联度
美国统计学会和其他组织近年推动"超越 p 值"运动,强调报告效应量和置信区间比 p 值更有科学价值。
R 是统计学家专门设计的统计计算环境。
CRAN 上有超过 2 万个包,覆盖几乎所有统计方法
ggplot2 :基于图形语法的数据可视化系统(The Grammar of Graphics)
dplyr / tidyr :数据管道操作,是 R 语言数据处理的标准
lme4 :线性混合效应模型的标准包
rstan / brms :贝叶斯建模
NumPy / SciPy :基础数值计算和统计函数(ttest、pearsonr 等)
pandas :数据分析框架
statsmodels :完整的统计模型工具箱,比 scikit-learn 在统计推断方面更强
scikit-learn :机器学习库,覆盖大部分统计学习算法
PyMC / Bambi :贝叶斯建模
seaborn :基于 matplotlib 的统计可视化库
JASP :类 SPSS 的 GUI 统计分析工具,同时支持频率和贝叶斯分析
JMP :SAS 旗下的交互式统计发现软件
Stata :社会科学的经典统计软件
SPSS :广泛使用的商业统计软件
相关不是因果 :发现两个变量相关,不能推定因果关系。A AA 引起 B BB 、B BB 引起 A AA 、C CC 同时引起 A AA 和 B BB 都是可能的解释。随机化实验是区分因果和相关的标准方法。
辛普森悖论(Simpson's Paradox) :分组看是正相关,合并后变负相关,反之亦然。因为遗漏了关键的分层变量。经典案例:伯克利研究生招生存在"性别偏见"——各学院女性录取率相近,但汇总后出现女性录取率显著低于男性的表象,因为女性更倾向于申请录取率低的学院。
幸存者偏差(Survivorship Bias) :只关注"幸存者"得出的结论可能严重偏颇。二战统计学家 Abraham Wald 发现返航飞机的弹孔分布后,建议加固无弹孔区域——那些区域的飞机被击中后就无法返航了。
均值回归(Regression to the Mean) :极端值在后续测量中倾向于向均值靠近。不要将均值回归误判为处理效果。体育杂志封面魔咒——运动员当选封面人物后表现下滑,本质是均值回归。
选择性报告 :只报告显著结果、删除异常值却不透明说明,是学术不端的温床。在团队分析报告中也要警惕类似倾向。
过度依赖 p 值 :将 α = 0.05 \alpha=0.05α = 0 . 0 5 奉为铁律,忽视效应量、置信区间和实际意义。
混淆统计显著性和实际显著性 :大样本中的微小差异很容易显著,但可能毫无实际价值。
忽视多重比较问题 :同时进行多个检验时不做校正,导致 I 类错误率膨胀。
数据挖掘/操纵(p-hacking) :反复尝试不同的数据预处理、变量定义和模型规格,直到得到显著的 p 值。
小样本错误推断 :在样本量很小(如 n = 10 n=10n = 1 0 )时使用大样本方法。对1万条记录中出现的3次罕见事件做卡方检验也不合理。
《统计学的世界》(David S. Moore)—— 入门经典,注重概念理解和直觉
《统计学习导论》(ISLR, James et al.)—— 统计学习的现代入门,有 R 和 Python 实现
《贝叶斯数据分析》(Gelman et al.)—— 贝叶斯统计的标准教材
《Statistical Rethinking》(McElreath)—— 贝叶斯统计的优雅实用入门
《时间序列分析》(Hamilton)—— 时间序列的权威参考
《The Elements of Statistical Learning》(ESL, Hastie et al.)—— 统计学习的圣经
《All of Statistics》(Wasserman)—— 经典统计的现代精简呈现
《Introduction to Probability》(Bertsekas & Tsitsiklis)—— 概率论经典教材
《Causal Inference: The Mixtape》(Cunningham)—— 现代因果推断入门
《Computer Age Statistical Inference》(Efron & Hastie)—— 计算时代的统计推断
本文为数学知识库的一部分。统计学是一门不断发展的学科,从描述数据到因果推断,从小样本理论到大数据时代的统计学习,它将数学的精确性与现实的复杂性连接起来,是数据驱动决策的基石。在实际工作中,理解统计学的原理比盲目使用工具更为重要,因为真正掌握统计学的人知道什么时候用、为什么用,以及结果的局限性在哪里。