心理统计学是应用统计学的一个分支,专门研究心理学研究中数据的收集、整理、分析和解释。它是心理学研究者必须掌握的核心方法论工具,贯穿从实验设计到结果报告的全流程。没有统计工具,心理学就难以从主观经验上升到科学规律。
心理学研究的对象——人类行为和心理过程——具有天然的变异性。即使是同一个人,在完全相同的情境下重复做同一件事,结果也可能不同。例如:
测量10名大学生的反应时间,结果可能是:235ms、248ms、221ms、267ms、253ms、229ms、241ms、258ms、236ms、244ms
没有两个完全相同的结果
这种变异来源于:个体差异(每个人不同)、测量误差(仪器精度)、随机波动(注意力变化)。
统计学的核心任务就是从这种变异中提取出可靠的规律。正如统计学家George Box所说:"所有模型都是错的,但有些是有用的。"
描述统计是用数字和图表概括数据特征的统计方法。它是任何数据分析的第一步。
集中趋势描述数据的"中心"位置,常用三个指标:
指标
定义
计算公式
适用场景
优点
缺点
均值 x ˉ \bar{x}x ˉ
所有数值的平均
x ˉ = ∑ i = 1 n x i n \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}x ˉ = n ∑ i = 1 n x i
对称分布
利用全部数据
受极端值影响大
中位数 M d M_dM d
排序后中间位置的值
排序后取中间值
偏态分布
不受极端值影响
忽视部分数据
众数 M o M_oM o
出现频率最高的值
直接观察
名义变量
最直观
可能不唯一或不存在
假设某班级10名学生的测验分数为:[65, 72, 78, 78, 82, 85, 88, 90, 92, 100]
计算均值:
x ˉ = 65 + 72 + 78 + 78 + 82 + 85 + 88 + 90 + 92 + 100 10 = 830 10 = 83 \bar{x} = \frac{65 + 72 + 78 + 78 + 82 + 85 + 88 + 90 + 92 + 100}{10} = \frac{830}{10} = 83
x ˉ = 10 65 + 72 + 78 + 78 + 82 + 85 + 88 + 90 + 92 + 100 = 10 830 = 83
中位数(偶数个,取中间两个的平均):
M d = 82 + 85 2 = 83.5 M_d = \frac{82 + 85}{2} = 83.5
M d = 2 82 + 85 = 83.5
众数:78(出现了2次,其余只出现1次)
极端值的影响 :如果将100换成200,均值变为 x ˉ = 93 \bar{x} = 93x ˉ = 93 (增加了10分),但中位数不变(仍是83.5)。这正是为什么报告收入数据时通常使用中位数——少数富豪的亿万收入会拉高均值,但中位数更准确地反映"普通人"的收入水平。
离散程度描述数据的"散布"情况。只看均值是不够的——两组数据可能有相同的均值但完全不同的分布。
指标
定义
公式
说明
极差
最大值 - 最小值
R = max − min R = \max - \minR = max − min
最简单,但只考虑两端
方差 s 2 s^2s 2
离差平方的均值
s 2 = ∑ ( x i − x ˉ ) 2 n − 1 s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1}s 2 = n − 1 ∑ ( x i − x ˉ ) 2
核心离散指标
标准差 s ss
方差的平方根
s = s 2 s = \sqrt{s^2}s = s 2
与原始数据同单位
变异系数 C V CVC V
标准差 / 均值
C V = s / x ˉ CV = s / \bar{x}C V = s / x ˉ
比较不同单位的变异
使用上面的分数数据 [65, 72, 78, 78, 82, 85, 88, 90, 92, 100],x ˉ = 83 \bar{x} = 83x ˉ = 83 :
x i x_ix i
x i − x ˉ x_i - \bar{x}x i − x ˉ
( x i − x ˉ ) 2 (x_i - \bar{x})^2( x i − x ˉ ) 2
65
-18
324
72
-11
121
78
-5
25
78
-5
25
82
-1
1
85
2
4
88
5
25
90
7
49
92
9
81
100
17
289
合计
0
944
方差:
s 2 = 944 10 − 1 = 944 9 ≈ 104.89 s^2 = \frac{944}{10 - 1} = \frac{944}{9} \approx 104.89
s 2 = 10 − 1 944 = 9 944 ≈ 104.89
标准差:
s = 104.89 ≈ 10.24 s = \sqrt{104.89} \approx 10.24
s = 104.89 ≈ 10.24
含义:大部分学生的分数在均值 ± 10.24 的范围内,即大约在 72.76 到 93.24 之间。
偏度 (Skewness)描述数据分布的不对称性:
正偏态 (右偏):大多数数据集中在左侧,右侧有长尾(如收入分布)
负偏态 (左偏):大多数数据集中在右侧,左侧有长尾(如考试难题的得分)
对称 :偏度接近于0
峰度 (Kurtosis)描述数据分布的"尖峰"程度:
高峰度 :数据集中在均值附近,尾部厚重(如金融资产收益率)
低峰度 :数据分布均匀,尾部较薄
图表类型
适用场景
示例
直方图
展示连续变量的分布
反应时间分布
条形图
比较分类变量的频数
不同年龄组的人数
箱线图
展示五数概括(最小值、Q1、中位数、Q3、最大值)
多组实验数据对比
散点图
展示两个变量的关系
学习时间与考试成绩
Q-Q图
检验正态性假设
数据是否服从正态分布
推断统计是指从样本数据推断总体特征的统计方法。心理学研究几乎不可能测量整个总体(如"所有抑郁症患者"),因此必须通过样本来推断总体。
概念
定义
符号
总体
研究关心的全部个体
N NN (总体大小)
样本
从总体中抽取的部分个体
n nn (样本大小)
参数
总体的数值特征
μ \muμ (总体均值),σ \sigmaσ (总体标准差)
统计量
样本的数值特征
x ˉ \bar{x}x ˉ (样本均值),s ss (样本标准差)
抽样分布
统计量的概率分布
-
中心极限定理 (Central Limit Theorem, CLT)是推断统计的基石。它指出:
无论总体分布是什么形状,当样本量足够大(通常 n ≥ 30 n \geq 30n ≥ 30 )时,样本均值的抽样分布近似服从正态分布。
具体来说,如果总体均值为 μ \muμ ,总体标准差为 σ \sigmaσ ,则样本均值 x ˉ \bar{x}x ˉ 的抽样分布满足:
均值的均值:μ x ˉ = μ \mu_{\bar{x}} = \muμ x ˉ = μ
均值的标准差(标准误):σ x ˉ = σ n \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}σ x ˉ = n σ
假设我们知道中国成年男性的平均身高 μ = 172 cm \mu = 172\text{cm}μ = 172 cm ,标准差 σ = 7 cm \sigma = 7\text{cm}σ = 7 cm 。现在我们随机抽取100人,样本均值 x ˉ \bar{x}x ˉ 的分布就是:
μ x ˉ = 172 cm \mu_{\bar{x}} = 172\text{cm}
μ x ˉ = 172 cm
σ x ˉ = 7 100 = 7 10 = 0.7 cm \sigma_{\bar{x}} = \frac{7}{\sqrt{100}} = \frac{7}{10} = 0.7\text{cm}
σ x ˉ = 100 7 = 10 7 = 0.7 cm
这意味着:如果我们反复抽取100人的样本,约95%的样本均值会落在 172 ± 1.96 × 0.7 = 172 ± 1.372 172 \pm 1.96 \times 0.7 = 172 \pm 1.372172 ± 1.96 × 0.7 = 172 ± 1.372 ,即 [170.628cm, 173.372cm] 范围内。
点估计 :用一个数值估计总体参数,如用 x ˉ \bar{x}x ˉ 估计 μ \muμ 。
区间估计 :给出一个区间,以一定的置信水平包含总体参数。置信区间公式:
对于总体均值 μ \muμ ,当 σ \sigmaσ 已知时:
C I = x ˉ ± z α / 2 × σ n CI = \bar{x} \pm z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}
C I = x ˉ ± z α /2 × n σ
当 σ \sigmaσ 未知时(更常见):
C I = x ˉ ± t α / 2 , n − 1 × s n CI = \bar{x} \pm t_{\alpha/2, n-1} \times \frac{s}{\sqrt{n}}
C I = x ˉ ± t α /2 , n − 1 × n s
其中 t α / 2 , n − 1 t_{\alpha/2, n-1}t α /2 , n − 1 是自由度为 n − 1 n-1n − 1 的 t tt 分布临界值。
从某大学随机抽取36名学生,测得平均智商 x ˉ = 105 \bar{x} = 105x ˉ = 105 ,标准差 s = 15 s = 15s = 15 。计算95%置信区间:
t 0.025 , 35 ≈ 2.03 t_{0.025, 35} \approx 2.03
t 0.025 , 35 ≈ 2.03
C I = 105 ± 2.03 × 15 36 = 105 ± 2.03 × 2.5 = 105 ± 5.075 CI = 105 \pm 2.03 \times \frac{15}{\sqrt{36}} = 105 \pm 2.03 \times 2.5 = 105 \pm 5.075
C I = 105 ± 2.03 × 36 15 = 105 ± 2.03 × 2.5 = 105 ± 5.075
C I = [ 99.925 , 110.075 ] CI = [99.925, 110.075]
C I = [ 99.925 , 110.075 ]
这意味着我们有95%的把握认为全校学生的平均智商在99.925到110.075之间。
假设检验是心理学研究中最常用的推断统计方法。其基本逻辑是:先提出一个假设,然后看数据是否支持该假设。
假设检验遵循"反证法"思想:
提出虚无假设 H 0 H_0H 0 (通常是"没有差异"或"没有效果")
提出备择假设 H 1 H_1H 1 (与研究预期一致)
计算在原假设为真时,观察到当前结果(或更极端结果)的概率——即 p值
如果 p < α p < \alphap < α (通常 α = 0.05 \alpha = 0.05α = 0.05 ),则拒绝 H 0 H_0H 0 ,认为结果在统计上显著
真实情况
不拒绝 H 0 H_0H 0
拒绝 H 0 H_0H 0
H 0 H_0H 0 为真
✅ 正确(1 − α 1 - \alpha1 − α )
❌ 第一类错误 (α \alphaα )
H 0 H_0H 0 为假
❌ 第二类错误 (β \betaβ )
✅ 正确(1 − β 1 - \beta1 − β ,即统计检验力 )
第一类错误(α \alphaα ) :虚无假设为真但错误地拒绝了它(假阳性)
第二类错误(β \betaβ ) :虚无假设为假但没有拒绝它(假阴性)
统计检验力(Power) :正确拒绝假虚无假设的概率,即 1 − β 1 - \beta1 − β
如果同时进行多次假设检验,第一类错误率会累积。例如同时做20次独立的 t tt 检验(α = 0.05 \alpha = 0.05α = 0.05 ),至少一次假阳性的概率为:
P ( 至少一个假阳性 ) = 1 − ( 1 − 0.05 ) 20 ≈ 1 − 0.358 = 0.642 P(\text{至少一个假阳性}) = 1 - (1 - 0.05)^{20} \approx 1 - 0.358 = 0.642
P ( 至少一个假阳性 ) = 1 − ( 1 − 0.05 ) 20 ≈ 1 − 0.358 = 0.642
这意味着有64.2%的概率出现至少一个虚假的"显著结果"!这就是为什么需要使用校正方法(如Bonferroni校正)。
比较样本均值与已知总体均值。
公式 :
t = x ˉ − μ 0 s / n t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}
t = s / n x ˉ − μ 0
其中 μ 0 \mu_0μ 0 是已知总体均值,s ss 是样本标准差,n nn 是样本量。
自由度 :d f = n − 1 df = n - 1df = n − 1
示例 :已知中国成年人平均睡眠时间为7.2小时。某研究者调查了25名程序员,平均睡眠时间 x ˉ = 6.5 \bar{x} = 6.5x ˉ = 6.5 小时,标准差 s = 1.2 s = 1.2s = 1.2 小时。程序员的睡眠时间是否显著少于成年人?
t = 6.5 − 7.2 1.2 / 25 = − 0.7 0.24 = − 2.92 t = \frac{6.5 - 7.2}{1.2 / \sqrt{25}} = \frac{-0.7}{0.24} = -2.92
t = 1.2/ 25 6.5 − 7.2 = 0.24 − 0.7 = − 2.92
d f = 25 − 1 = 24 df = 25 - 1 = 24
df = 25 − 1 = 24
查 t tt 分布表,t 0.05 , 24 = 2.064 t_{0.05, 24} = 2.064t 0.05 , 24 = 2.064 ,∣ t ∣ = 2.92 > 2.064 |t| = 2.92 > 2.064∣ t ∣ = 2.92 > 2.064 ,p < 0.05 p < 0.05p < 0.05 。结论:程序员的睡眠时间显著少于成年人平均水平。
比较两个独立组的均值差异。
公式 :
t = x ˉ 1 − x ˉ 2 s p 2 n 1 + s p 2 n 2 t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_p^2}{n_1} + \frac{s_p^2}{n_2}}}
t = n 1 s p 2 + n 2 s p 2 x ˉ 1 − x ˉ 2
其中 s p 2 s_p^2s p 2 是合并方差:
s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}
s p 2 = n 1 + n 2 − 2 ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2
自由度 :d f = n 1 + n 2 − 2 df = n_1 + n_2 - 2df = n 1 + n 2 − 2
比较同一组被试在两个条件下的差异(如前后测)。
公式 :
t = d ˉ s d / n t = \frac{\bar{d}}{s_d / \sqrt{n}}
t = s d / n d ˉ
其中 d ˉ \bar{d}d ˉ 是配对差值的均值,s d s_ds d 是差值的标准差。
p pp 值受样本量影响——大样本下即使微小的差异也可能"显著"。因此需要报告效应量。
效应量指标
适用场景
公式
小
中
大
Cohen's d dd
t tt 检验
d = x ˉ 1 − x ˉ 2 s p d = \frac{\bar{x}_1 - \bar{x}_2}{s_p}d = s p x ˉ 1 − x ˉ 2
0.2
0.5
0.8
η 2 \eta^2η 2
ANOVA
η 2 = S S 组间 S S 总 \eta^2 = \frac{SS_{组间}}{SS_{总}}η 2 = S S 总 S S 组间
0.01
0.06
0.14
Cohen's w ww
卡方检验
w = χ 2 N w = \sqrt{\frac{\chi^2}{N}}w = N χ 2
0.1
0.3
0.5
r rr
相关分析
r rr 本身
± 0.1 \pm 0.1± 0.1
± 0.3 \pm 0.3± 0.3
± 0.5 \pm 0.5± 0.5
方差分析用于比较三个或更多组的均值差异。其核心思想是分解变异 :将总变异分解为由自变量引起的组间变异和随机误差引起的组内变异。
F = M S 组间 M S 组内 = S S 组间 / d f 组间 S S 组内 / d f 组内 F = \frac{MS_{组间}}{MS_{组内}} = \frac{SS_{组间} / df_{组间}}{SS_{组内} / df_{组内}}
F = M S 组内 M S 组间 = S S 组内 / d f 组内 S S 组间 / d f 组间
如果组间变异显著大于组内变异,说明各组之间存在真实差异。
假设比较三种教学方法(传统、互动、项目制)对数学成绩的影响,每组10名学生:
教学方法
平均分
标准差
传统教学
72.3
8.5
互动教学
78.6
9.2
项目制教学
81.4
7.8
ANOVA 结果表:
变异来源
S S SSS S
d f dfdf
M S MSM S
F FF
p pp
组间
436.2
2
218.1
4.82
0.016
组内
1222.5
27
45.3
-
-
总
1658.7
29
-
-
-
F ( 2 , 27 ) = 4.82 F(2, 27) = 4.82F ( 2 , 27 ) = 4.82 , p = 0.016 < 0.05 p = 0.016 < 0.05p = 0.016 < 0.05 ,说明三种教学方法的效果存在显著差异。但具体哪些组之间有差异,需要事后检验。
当 ANOVA 显著后,需要进行多重比较以找出具体差异。常用方法:
方法
特点
适用场景
Bonferroni
最保守,将 α \alphaα 除以比较次数
比较次数较少
Tukey HSD
控制所有成对比较的FWER
所有组间比较
Scheffé
最灵活,可做任意对比
复杂对比分析
Holm-Bonferroni
逐步调整,比Bonferroni更强大
推荐
对上例进行 Tukey HSD 事后检验:
对比组
均值差
p pp
结论
传统 vs 互动
-6.3
0.042
显著
传统 vs 项目制
-9.1
0.008
显著
互动 vs 项目制
-2.8
0.523
不显著
可以同时考察多个自变量的主效应和交互效应。以2×2设计为例:
研究性别(男/女)和教学方法(传统/互动)对学习动机的影响
ANOVA 结果可能揭示:
性别主效应 :男生和女生的动机是否有差异
教学方法主效应 :两种方法的动机效果是否有差异
交互效应 :教学方法的效果是否因性别而异(如互动教学对女生更有效,但对男生无效)
交互效应类型 :
类型
描述
示例
无交互
两个因素独立作用
男女在两种方法下差异相同
序数交互
方向一致但程度不同
互动教学对男女都更好,但对女生更好更多
非序数交互
方向不一致
互动教学对女生更好,但对男生更差
当同一组被试在不同时间点或不同条件下被多次测量时使用。
优点 :控制了个体差异,统计检验力更高
缺点 :存在顺序效应、练习效应,需要满足球形假设
效应
传统ANOVA
重复测量ANOVA
个体差异
误差项的一部分
被分离出去
统计检验力
较低
较高
所需样本量
较多
较少
假设条件
独立性、正态性、方差齐性
加上球形假设
回归分析用于研究一个或多个自变量(预测变量)与因变量(结果变量)之间的关系。
模型形式:
y = β 0 + β 1 x + ε y = \beta_0 + \beta_1 x + \varepsilon
y = β 0 + β 1 x + ε
其中 β 0 \beta_0β 0 是截距,β 1 \beta_1β 1 是斜率,ε \varepsilonε 是误差项。
参数估计(最小二乘法):
β ^ 1 = ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 \hat{\beta}_1 = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}
β ^ 1 = ∑ ( x i − x ˉ ) 2 ∑ ( x i − x ˉ ) ( y i − y ˉ )
β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}
β ^ 0 = y ˉ − β ^ 1 x ˉ
研究"每周学习时间"对"考试成绩"的预测作用,收集20名学生的数据:
统计量
值
回归方程
y ^ = 55.2 + 3.8 × 小时 \hat{y} = 55.2 + 3.8 \times \text{小时}y ^ = 55.2 + 3.8 × 小时
R 2 R^2R 2
0.64
F ( 1 , 18 ) F(1, 18)F ( 1 , 18 )
32.0
p pp
< 0.001
解释:每周学习时间每增加1小时,预计考试成绩提高3.8分。模型解释了64%的成绩变异。
多个预测变量:
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + ε y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_k x_k + \varepsilon
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + ε
预测"工作满意度"(y yy )的三个预测变量:
x 1 x_1x 1 :薪资水平(标准化后)
x 2 x_2x 2 :工作自主权(1-10分)
x 3 x_3x 3 :同事支持度(1-10分)
预测变量
β \betaβ
S E SES E
t tt
p pp
95% CI
截距
2.32
0.45
5.16
< 0.001
[1.41, 3.23]
薪资
0.18
0.08
2.25
0.028
[0.02, 0.34]
自主权
0.42
0.09
4.67
< 0.001
[0.24, 0.60]
同事支持
0.31
0.07
4.43
< 0.001
[0.17, 0.45]
模型整体:R 2 = 0.52 R^2 = 0.52R 2 = 0.52 , F ( 3 , 96 ) = 34.7 F(3, 96) = 34.7F ( 3 , 96 ) = 34.7 , p < 0.001 p < 0.001p < 0.001
解释:在控制其他变量后,工作自主权对满意度的预测作用最强(β = 0.42 \beta = 0.42β = 0.42 ),同事支持次之(β = 0.31 \beta = 0.31β = 0.31 ),薪资的独立贡献最小(β = 0.18 \beta = 0.18β = 0.18 )。三个变量共同解释了52%的工作满意度变异。
进行回归分析后必须检验模型假设:
假设
检查方法
问题解决
线性
残差 vs 拟合值图
添加非线性项(如 x 2 x^2x 2 )
独立性
Durbin-Watson 检验
使用混合模型或时间序列分析
方差齐性
残差 vs 拟合值图的漏斗形
使用加权最小二乘法或稳健标准误
正态性
Q-Q图,Shapiro-Wilk检验
对 y yy 做变换(如对数变换)
多重共线性
VIF > 10 表示严重
删除相关变量或使用岭回归
中介效应 :x → M → y x \to M \to yx → M → y ,即自变量通过中介变量影响因变量。
x ──────→ y (总效应 c)
↘ M ↗ (间接效应 a×b)
Baron & Kenny(1986)检验步骤:
x xx 显著预测 y yy (路径 c cc )
x xx 显著预测 M MM (路径 a aa )
控制 x xx 后,M MM 显著预测 y yy (路径 b bb )
控制 M MM 后,x xx 对 y yy 的效应(路径 c ′ c'c ′ )减弱或不显著
调节效应 :z zz 影响 x → y x \to yx → y 关系的强度或方向。
模型:y = β 0 + β 1 x + β 2 z + β 3 ( x × z ) + ε y = \beta_0 + \beta_1 x + \beta_2 z + \beta_3 (x \times z) + \varepsilony = β 0 + β 1 x + β 2 z + β 3 ( x × z ) + ε
如果 β 3 \beta_3β 3 显著,则存在调节效应。例如,社会支持(z zz )可能调节压力(x xx )对心理健康(y yy )的影响。
因素分析是一种数据降维技术,用少数几个"因素"来解释多个观测变量之间的相关结构。在心理学中广泛用于量表开发和结构效度验证。
目标:发现数据中隐含的因素结构。
步骤 :
计算相关矩阵
提取因素(主成分法、主轴因子法、最大似然法等)
确定因素数量(特征值 > 1、碎石图、平行分析)
因素旋转(正交旋转如Varimax,或斜交旋转如Promax)
解释因素
假设对500人的大五人格问卷(50题)进行EFA:
因素
特征值
方差解释%
累积%
典型题目
尽责性
8.2
16.4%
16.4%
我做事情有条理
宜人性
6.8
13.6%
30.0%
我同情他人的感受
神经质
5.5
11.0%
41.0%
我经常感到焦虑
开放性
4.3
8.6%
49.6%
我喜欢尝试新事物
外向性
3.9
7.8%
57.4%
我喜欢社交聚会
五个因素共解释57.4%的总方差。
目标:检验预设的因素结构是否与实际数据吻合。
常用拟合指标 :
指标
理想标准
可接受标准
χ 2 / d f \chi^2 / dfχ 2 / df
< 2
< 3
RMSEA
< 0.06
< 0.08
CFI
> 0.95
> 0.90
TLI / NNFI
> 0.95
> 0.90
SRMR
< 0.05
< 0.08
当所有数据来自同一来源时,需要进行 Harman 单因素检验。如果未旋转的EFA中单个因素解释的方差不超过50%,则认为共同方法偏差不严重。
结构方程模型整合了因素分析和路径分析,可以同时处理潜变量及其因果关系。它是当代心理学研究中最强大的统计工具之一。
测量模型(CFA部分)
┌──────────────┐
│ 潜变量1 │──→ 观察变量 x1、x2、x3
│ (如智力) │
└──────┬───────┘
│ 结构路径
▼
┌──────────────┐
│ 潜变量2 │──→ 观察变量 y1、y2、y3
│ (如学业成绩) │
└──────────────┘
模型设定 :基于理论构建路径图
模型识别 :确保参数可估计
模型估计 :最大似然法(ML)或广义最小二乘法(GLS)
模型评估 :检查拟合指标和参数显著性
模型修正 :根据修正指数(MI)调整模型
条件
最低样本量
推荐样本量
简单模型(< 5个潜变量)
100
200+
中等复杂度
200
300+
复杂模型
300
500+
每估计一个参数
5-10个被试
10-20个被试
方面
多元回归
SEM
变量类型
所有变量可观测
包含潜变量
测量误差
假设无测量误差
明确建模测量误差
关系方向
单方向
可建模多条路径和间接效应
模型评估
R 2 R^2R 2 , F FF 检验
多种拟合指标
可处理复杂模型
有限
可处理非常复杂的模型
一个SEM的心理研究范例 :
Wang等(2020)研究了"工作压力→职业倦怠→离职意向"的路径,以及"社会支持"的调节作用。SEM分析发现:
工作压力对职业倦怠有显著正向影响(β = 0.56 \beta = 0.56β = 0.56 , p < 0.001 p < 0.001p < 0.001 )
职业倦怠部分中介了工作压力对离职意向的影响(间接效应 = 0.18, p = 0.003 p = 0.003p = 0.003 )
模型拟合良好:χ 2 / d f = 2.34 \chi^2/df = 2.34χ 2 / df = 2.34 , CFI = 0.93, RMSEA = 0.06, SRMR = 0.05
元分析是对多个独立研究的结果进行定量综合的方法。它是循证心理学最高级别的证据。
单个研究样本量有限,统计检验力不足
不同研究结果可能存在不一致
需要估计总体效应量的精确值
探索影响效应量的调节变量
固定效应模型:
θ ˉ F E = ∑ w i θ i ∑ w i \bar{\theta}_{FE} = \frac{\sum w_i \theta_i}{\sum w_i}
θ ˉ F E = ∑ w i ∑ w i θ i
随机效应模型:
θ ˉ R E = ∑ w i ∗ θ i ∑ w i ∗ \bar{\theta}_{RE} = \frac{\sum w_i^* \theta_i}{\sum w_i^*}
θ ˉ R E = ∑ w i ∗ ∑ w i ∗ θ i
其中 w i = 1 / v i w_i = 1 / v_iw i = 1/ v i ,w i ∗ = 1 / ( v i + τ 2 ) w_i^* = 1 / (v_i + \tau^2)w i ∗ = 1/ ( v i + τ 2 ) ,τ 2 \tau^2τ 2 是研究间方差。
指标
含义
解释
Q QQ 统计量
效应量的变异程度
显著表示存在异质性
I 2 I^2I 2
异质性占总变异的比例
25%低,50%中,75%高
τ 2 \tau^2τ 2
研究间方差
随机效应模型的核心参数
漏斗图 :以效应量为横轴,标准误为纵轴。如果不存在发表偏倚,散点应呈对称的倒漏斗形。
Egger's 回归检验 :如果截距显著偏离0,提示存在发表偏倚。
剪补法(Trim and Fill) :估计并修正发表偏倚的影响。
心理治疗效果的元分析 (Smith & Glass, 1977)
首次大规模心理治疗元分析,分析了375项研究:
类型
效应量(Cohen's d dd )
95% CI
系统脱敏
0.91
[0.82, 1.00]
行为矫正
0.75
[0.65, 0.85]
来访者中心疗法
0.57
[0.45, 0.69]
精神分析
0.25
[0.10, 0.40]
总体
0.68
[0.62, 0.74]
结论:心理治疗总体上有效(d = 0.68 d = 0.68d = 0.68 ),但不同类型治疗效果差异显著。
软件
优点
缺点
适合场景
SPSS
图形界面友好,操作简单
灵活性有限,价格昂贵
初学者,标准分析
R语言
免费,功能强大,包丰富
学习曲线陡峭
高级分析,自定义分析
Python
免费,数据分析生态完整
统计专用功能不如R
数据科学,机器学习
Mplus
SEM、跨层次模型专长
语法独特,价格昂贵
结构方程模型
JASP
免费,界面友好,推荐贝叶斯
功能有限
替代SPSS
Jamovi
免费,支持模块扩展
社区规模较小
教学和基础分析
一份规范的统计报告应包含:
t tt 检验 :t ( d f ) = t 值 , p = p 值 , d = 效应量 t(df) = t值, p = p值, d = 效应量t ( df ) = t 值 , p = p 值 , d = 效应量
示例:t ( 48 ) = 2.45 , p = 0.018 , d = 0.70 t(48) = 2.45, p = 0.018, d = 0.70t ( 48 ) = 2.45 , p = 0.018 , d = 0.70
ANOVA :F ( d f 组间 , d f 组内 ) = F 值 , p = p 值 , η p 2 = 偏 η 2 F(df_{组间}, df_{组内}) = F值, p = p值, \eta_p^2 = 偏\eta^2F ( d f 组间 , d f 组内 ) = F 值 , p = p 值 , η p 2 = 偏 η 2
示例:F ( 2 , 87 ) = 5.62 , p = 0.005 , η p 2 = 0.11 F(2, 87) = 5.62, p = 0.005, \eta_p^2 = 0.11F ( 2 , 87 ) = 5.62 , p = 0.005 , η p 2 = 0.11
回归 :β = 标准化系数 , t = t 值 , p = p 值 \beta = 标准化系数, t = t值, p = p值β = 标准化系数 , t = t 值 , p = p 值
示例:β = 0.32 , t ( 96 ) = 3.41 , p < 0.001 \beta = 0.32, t(96) = 3.41, p < 0.001β = 0.32 , t ( 96 ) = 3.41 , p < 0.001
相关 :r = 相关系数 , p = p 值 r = 相关系数, p = p值r = 相关系数 , p = p 值
示例:r ( 98 ) = 0.45 , p < 0.001 r(98) = 0.45, p < 0.001r ( 98 ) = 0.45 , p < 0.001
χ 2 \chi^2χ 2 检验 :χ 2 ( d f , N = 总样本量 ) = 卡方值 , p = p 值 \chi^2(df, N = 总样本量) = 卡方值, p = p值χ 2 ( df , N = 总样本量 ) = 卡方值 , p = p 值
示例:χ 2 ( 3 , N = 200 ) = 8.72 , p = 0.033 \chi^2(3, N = 200) = 8.72, p = 0.033χ 2 ( 3 , N = 200 ) = 8.72 , p = 0.033
错误类型
描述
如何避免
p pp -hacking
不断尝试不同分析直到p < 0.05 p < 0.05p < 0.05
预注册分析计划
忽略假设
未检查正态性、方差齐性
分析前检查假设
混淆显著与重要
认为p < 0.05 p < 0.05p < 0.05 就代表效应大
同时报告效应量
多重比较不校正
做大量比较不调整
使用Bonferroni等校正
小样本大结论
样本量不足但下强结论
进行功效分析确定样本量
错误解释置信区间
说"有95%概率包含参数"
应说"95%的置信区间包含参数"
忽略缺失数据
简单删除所有缺失值
使用多重插补或最大似然法
"正念冥想是否能够降低大学生的考试焦虑水平?"
被试:80名大学生,随机分为实验组(40人)和对照组(40人)
实验组:8周正念冥想训练
对照组:等待名单
测量工具:考试焦虑量表(TAS),前后测
描述统计 :各组前测和后测的均值、标准差
独立样本 t tt 检验 :两组前测是否可比
重复测量ANOVA :2(组别)× 2(时间)
效应量 :Cohen's d dd
描述统计 :
组别
前测均值± S D \pm SD± S D
后测均值± S D \pm SD± S D
实验组(n = 40 n=40n = 40 )
58.2 ± \pm± 8.5
45.3 ± \pm± 7.2
对照组(n = 40 n=40n = 40 )
57.8 ± \pm± 9.1
56.5 ± \pm± 8.8
前测比较 :t ( 78 ) = 0.24 t(78) = 0.24t ( 78 ) = 0.24 ,p = 0.811 p = 0.811p = 0.811 ,d = 0.05 d = 0.05d = 0.05 ,两组前测无显著差异。
重复测量ANOVA :
变异来源
S S SSS S
d f dfdf
M S MSM S
F FF
p pp
η p 2 \eta_p^2η p 2
组别
1520.3
1
1520.3
8.45
0.005
0.11
时间
2450.8
1
2450.8
13.62
< 0.001
0.17
组别×时间
1680.5
1
1680.5
9.34
0.003
0.12
误差(被试内)
11850.2
78
180.0
-
-
-
关键发现 :存在显著的交互效应 F ( 1 , 78 ) = 9.34 F(1, 78) = 9.34F ( 1 , 78 ) = 9.34 ,p = 0.003 p = 0.003p = 0.003 ,η p 2 = 0.12 \eta_p^2 = 0.12η p 2 = 0.12 。简单效应分析表明,实验组后测显著低于前测(p < 0.001 p < 0.001p < 0.001 ,d = 1.35 d = 1.35d = 1.35 ),而对照组前后测无显著差异(p = 0.452 p = 0.452p = 0.452 ,d = 0.11 d = 0.11d = 0.11 )。结论:8周正念冥想训练显著降低了考试焦虑水平。
Gravetter, F. J., & Wallnau, L. B. (2016). Statistics for the Behavioral Sciences (10th ed.). Cengage Learning.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). SAGE Publications.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum.
American Psychological Association. (2020). Publication Manual of the American Psychological Association (7th ed.).
Kline, R. B. (2015). Principles and Practice of Structural Equation Modeling (4th ed.). Guilford Press.
Tabachnick, B. G., & Fidell, L. S. (2019). Using Multivariate Statistics (7th ed.). Pearson.
Rosenthal, R., & DiMatteo, M. R. (2001). Meta-analysis: Recent developments in quantitative methods for literature reviews. Annual Review of Psychology , 52, 59-82.
官网:OpenStats Lab — https://www.openstatslab.org
在线资源:Psychological Statistics on Wikipedia — https://en.wikipedia.org/wiki/Psychological_statistics