实验心理学(Experimental Psychology)是心理学中最基础、最核心的研究方法学分支。它运用科学实验的方法系统研究心理现象和行为规律,为整个心理学提供了因果推断的工具。从费希纳的心理物理学到现代认知神经科学,实验方法始终是推动心理学发展的核心引擎。本文将系统介绍实验心理学的核心原理、实验设计方法、效度控制、经典范例及最新发展趋势。
科学实验区别于自然观察和相关研究的关键在于操纵与控制:
| 特征 | 实验研究 | 相关研究 | 准实验 |
|---|---|---|---|
| 操纵自变量 | ✅ 是 | ❌ 否 | ❌ 不能随机分配 |
| 随机分配 | ✅ 是 | ❌ 否 | ❌ 否 |
| 因果推断 | ✅ 强 | ❌ 不能 | ⚠️ 有限 |
| 内部效度 | ✅ 高 | ❌ 低 | ⚠️ 中等 |
| 外部效度 | ⚠️ 可能受限 | ✅ 较高 | ✅ 较高 |
举例说明:要回答"睡眠不足是否降低记忆力"这个问题:
根据穆勒(John Stuart Mill)的因果法则,实验心理学中的因果推断需满足:
这正是实验设计追求的核心目标——通过控制程序排除替代解释。
自变量(Independent Variable, IV)是研究者主动操纵的因素,常见类型包括:
| 类型 | 定义 | 示例 |
|---|---|---|
| 环境变量 | 改变物理或社会环境 | 噪音水平(安静 vs 嘈杂房间) |
| 任务变量 | 改变任务性质 | 记忆任务类型(自由回忆 vs 再认) |
| 被试变量 | 被试固有特征(不能随机分配) | 性别、年龄、人格类型 |
| 刺激变量 | 改变刺激特征 | 字体大小、颜色、呈现时间 |
| 药物变量 | 改变药物剂量或类型 | 安慰剂 vs 不同剂量咖啡因 |
⚠️ 注意:被试变量(如性别、年龄)不能随机分配,包含这些变量的设计属于准实验,不能做出强因果推断。
自变量的不同取值称为水平(Levels)。实验设计需要明确:
案例:"焦虑"的操作定义可以是:
因变量(Dependent Variable, DV)是研究者测量以评估自变量效应的变量。好的因变量需满足:
| 标准 | 含义 | 示例(记忆研究) |
|---|---|---|
| 敏感性 | 能检测到自变量的真实效应 | 正确回忆数量 |
| 可靠性 | 重复测量得到一致结果 | 分半信度 > 0.8 |
| 有效性 | 测量到了预期的心理构念 | 回忆量确实反映记忆能力 |
| 无偏差 | 不受测量工具或环境系统影响 | 避免天花板/地板效应 |
天花板效应和地板效应是数据解释中的常见陷阱:
天花板效应:任务太简单,所有被试都接近满分,掩盖了自变量差异。例如:记忆研究中使用"1+1=?"这种题目,所有被试试都答对——无法区分记忆能力差异。
地板效应:任务太难,所有被试都接近零分。例如:给非中文母语者一段文言文记忆测试,大家都记不住——同样掩盖了差异。
额外变量(Extraneous Variables)若不控制,可能成为混淆变量(Confounding Variables),导致错误结论。
混淆变量的经典案例:冰淇淋销量与溺水率正相关——但这不是吃冰淇淋导致溺水,而是"夏季高温"这个混淆变量同时导致了两者增加。
| 控制方法 | 适用范围 | 操作方式 |
|---|---|---|
| 随机化 | 所有研究 | 随机分配被试到各组 |
| 匹配法 | 小样本 | 按关键特征匹配后分配 |
| 恒定法 | 物理环境 | 所有条件保持一致 |
| 平衡法 | 顺序效应 | 使用ABBA或拉丁方设计 |
| 抵消平衡 | 多条件顺序 | 每种顺序都有人接受 |
| 双盲程序 | 药物/干预研究 | 被试和实验者都不知道分组 |
将被试随机分配到实验组和控制组。这是控制个体差异最有力的方法。
实验过程示意图:
[被试池] → 随机化
├── 实验组(自变量的某个水平) → 测试 → 结果A
└── 控制组(无自变量/安慰剂) → 测试 → 结果B
如果结果A显著不同于结果B → 归因于自变量
在有多个实验条件时,用拉丁方平衡顺序效应:
假设有4种条件(A、B、C、D),4组被试:
组1: A → B → C → D
组2: B → D → A → C
组3: C → A → D → B
组4: D → C → B → A
每个条件出现在每个位置的次数相同 → 练习效应和疲劳效应被平衡
实验者可能无意识地影响被试行为(如微妙的语气变化)。双盲程序是解决方案:被试不知道分组,实验者也同样不知道。
罗森塔尔效应(Rosenthal Effect)的著名案例:研究者告诉教师某几位学生"有发展潜力"(实际为随机挑选),一段时间后这些学生的成绩真的提高了——实验者的期望影响了学生的表现。
| 效度类型 | 定义 | 威胁因素 | 应对策略 |
|---|---|---|---|
| 内部效度 | 自变量是否确实引起了因变量的变化 | 历史事件、成熟、测试效应、工具变化、统计回归、选择偏差、实验死亡率 | 随机化、控制组、标准化程序 |
| 外部效度 | 结果能否推广到其他人群、情境和时间 | 样本偏差、情境效应、实验者效应 | 随机抽样、多情境复制 |
| 构念效度 | 操作定义是否真正反映了理论构念 | 操作定义不匹配、单操作偏差 | 多方法测量、多操作定义 |
| 统计效度 | 统计结论是否准确 | 低统计力、违反假设 | 适当样本量、稳健统计方法 |
历史事件(History):实验期间发生了影响结果的外部事件
成熟(Maturation):被试随时间自然变化
测试效应(Testing):前测本身影响后测成绩
工具变化(Instrumentation):测量工具或标准发生变化
统计回归(Statistical Regression):极值向均值回归
选择偏差(Selection Bias):实验组和控制组在实验开始前就已不同
实验死亡率(Mortality/Attrition):被试流失系统性地改变组间差异
| 因素 | 说明 | 经典教训 |
|---|---|---|
| 样本代表性 | 大学生样本占心理学研究70%以上,能否推广到一般人群? | 社会心理学中的"西方、受过教育、工业化、富裕、民主"(WEIRD)偏差问题 |
| 情境人为性 | 实验室情境与现实生活差异大 | 记忆研究中使用无意义音节——与现实记忆差异很大 |
| 实验者效应 | 实验者特征影响被试反应 | 男性和女性实验者对同一任务获得不同结果 |
| 时间和文化 | 结论是否随时间或文化变化 | 1960年代的服从研究在今日重复,结果已显著不同 |
特点:每个被试只接受一个实验条件
被试间设计:
被试50人 → 随机分配
├── 实验组(n=25)→ 接受处理 → 测试因变量
└── 控制组(n=25)→ 不接受处理 → 测试因变量
统计检验:独立样本t检验或单因素方差分析
优点:
缺点:
特点:每个被试接受所有实验条件
被试内设计:
被试30人 → 每个被试依次接受所有条件
A → B → C → D(顺序需平衡)
统计检验:配对样本t检验或重复测量方差分析
优点:
缺点:
特点:结合被试间和被试内因素
2(组别:实验组 vs 控制组)× 3(时间:前测 vs 中测 vs 后测)混合设计
┌── 前测 → 中测 → 后测 [被试内因素]
组别 ─────┤
└── 前测 → 中测 → 后测 [被试内因素]
被试间因素:组别(每组不同被试)
被试内因素:时间(同一被试重复测量)
应用场景:临床干预研究、教育实验、发展心理学追踪研究等
特点:同时操纵两个或多个自变量,检验主效应和交互效应
2 × 3 因子设计示例:
研究问题:记忆策略和呈现时间如何影响记忆效果?
自变量A:记忆策略(复述 vs 组织加工)——2个水平
自变量B:呈现时间(1秒 vs 3秒 vs 5秒)——3个水平
因变量:正确回忆单词数量
呈现时间
1秒 3秒 5秒
┌─────────────────────────────────
策略 │ 复述 | 2.1 | 4.3 | 5.8
│ 组织加工 | 3.2 | 6.7 | 8.9
└─────────────────────────────────
可能的交互效应:组织加工策略在长时间呈现下效果更好(差异更大)
交互效应解读:当一条线的模式在不同水平下不同,就存在交互效应。
没有交互效应(两条线平行): 有交互效应(两条线相交):
│ │
│ ──── A1 B1 ──── │ B1 ────
│ ──── A2 B2 ──── │ ──── B2
└─────────── └───────────
当无法实现随机分配时(这是现实世界中常见的困境),准实验设计就派上了用场:
| 场景 | 原因 | 典型例子 |
|---|---|---|
| 教育研究 | 不能随机分班 | 比较两种教学方法,只能以班级为单位 |
| 临床研究 | 不能强迫患者接受安慰剂 | 只能比较同意治疗 vs 未治疗的患者 |
| 组织研究 | 不能随机分配员工 | 比较不同部门的管理方式效果 |
| 政策评估 | 不能随机分配居民 | 比较A社区(有政策)和B社区(无政策) |
实验组(班级A)→ 前测 → 新教学法 → 后测
控制组(班级B)→ 前测 → 传统教学 → 后测
比较:两组后测差异,同时控制前测差异
统计方法:ANCOVA(协方差分析)
... 基线期(6个月) → 政策实施 → 干预期(6个月)...
测量每个月的犯罪率数据:
┌───────────────────────────────
│ 基线期 干预期
│ │ │
│ ●●
犯罪 │ ● ●● ← 政策实施点
率 │ ● ●●
│ ● ●●
│ ● ●●
└───────────────────────────────
时间 →
分析:干预前后的斜率变化,而不仅仅是均值变化
根据前测分数划分:
┌── 分数线之上 → 获得奖学金
└── 分数线之下 → 不获得奖学金
比较分数线附近的学生(如分数线±5分),
他们被随机分配到两个组的概率几乎相同
分析:在断点处是否出现跳跃
单被试设计(Single-Subject Design)在小样本研究、临床干预和行为分析中广泛应用,每个被试作为自己的控制组。
基线期(A)─ 干预期(B)─ 撤销期(A)
┌────────────────────────────────
│ A期 B期 A期
│
攻击│ ● ●
行为│ ●● ●● ●
次数│ ● ● ●●●● ● ●●●
│ ● ●● ●●
└────────────────────────────────
时间 →
逻辑:如果攻击行为在干预期减少,撤销后又恢复,
则更可信地归因于干预
同时观察多个被试/行为的基线,在不同时间点引入干预:
被试1:基线期 ──── 干预期 ────────
被试2:基线期 ─────────── 干预期 ────
被试3:基线期 ───────────────── 干预期 ──
如果每个被试在干预引入时才变化,则可排除外部事件
快速轮换不同条件:
顺序:A → B → A → C → B → C → A → B → C
每个条件随机出现,比较不同条件下的行为差异
适合:比较两种干预措施的效果差异
心理学实验伦理的严格化源于历史上一些有争议的研究:
| 实验 | 伦理问题 | 后续影响 |
|---|---|---|
| 米尔格拉姆服从实验(1961) | 被试相信自己在对他人施加电击(最高450V),承受严重心理压力 | 推动了知情同意的标准化 |
| 斯坦福监狱实验(1971) | 被试遭受心理虐待,原计划2周的研究仅6天后终止 | 强调了研究者停止实验的责任 |
| 华生小阿尔伯特实验(1920) | 通过条件反射使11个月大婴儿恐惧白鼠,未进行撤销条件作用 | 推动了被试保护准则 |
| 塔斯基吉梅毒研究(1932-1972) | 400名非洲裔梅毒患者未被治疗以观察疾病自然进程 | 导致《贝尔蒙报告》和机构审查委员会(IRB)制度 |
APA 伦理准则(2017年版)的核心原则:
| 原则 | 具体要求 |
|---|---|
| 知情同意 | 告知研究目的、程序、风险、收益,被试自愿参加且随时可退出 |
| 风险-收益评估 | 心理/生理风险必须最小化,且收益应大于风险 |
| 保密性 | 保护被试身份信息,匿名化或编码存储 |
| 汇报 | 实验后解释真实目的,消除任何误导或负面效应 |
| 退出权 | 被试可随时退出研究,不会受到任何惩罚 |
| 欺骗的限定 | 仅在必要时且无害时使用欺骗,必须后续汇报 |
| 机构审查 | 所有研究需经IRB批准后才能进行 |
对于涉及动物的实验,还有额外要求:
研究问题:自动化加工与受控加工的冲突
经典设计:
自变量:刺激类型(3个水平)
- 一致条件:红色的"红"字
- 不一致条件:红色的"绿"字
- 中性条件:红色的"XXX"
因变量:说出墨水的颜色所需时间(毫秒)
实验结果(典型数据):
| 条件 | 平均反应时(ms) | 错误率 |
|------|-----------------|--------|
| 一致 | 520 | 2.1% |
| 中性 | 580 | 2.5% |
| 不一致 | 780 | 8.3% |
结论:语义加工是自动化的——读单词比命名颜色更熟练,产生干扰效应。不一致条件下平均多花200ms,这是一个非常稳健的效应(效应量 Cohen's d > 1.5)。
研究问题:普通人在权威命令下是否会对他人施加伤害?
实验设计:
自变量(被试间):
- 实验地点、实验者着装、距离受害者远近
因变量:
- 被试施加的最大电击电压(15V递增,最高450V)
结果:在基线条件下,65%的被试施加到最高450V
修改距离的效果:
| 条件 | 服从率(到450V) |
|------|----------------|
| 标准条件(受害者隔离) | 65% |
| 受害者在同一房间 | 40% |
| 需将受害者手压在电击板上 | 30% |
| 实验者通过电话下达指令 | 20.5% |
伦理争议:该实验引发了巨大的伦理讨论,推动了知情同意制度和IRB的建立。被试承受的心理压力(认为自己伤害了他人)远超预期。
研究问题:在多人交谈的环境中,人们如何选择性关注一个人的声音?
设计:
双耳分听范式:
- 左耳:关于气象的叙述
- 右耳:关于经济的叙述
- 任务:追随(shadow)左耳内容,立即复述
测试:被试对非追随耳的内容记得多少?
结果:
- 能注意到:性别变化(男→女)、音高变化
- 不能注意到:语言内容、语种变化(如果是外语)
▸ 注意的瓶颈发生在语义层面之前
▸ 支持了Broadbent的早期选择模型
研究问题:中性刺激能否通过学习获得引发反射的能力?
经典程序:
阶段1(基线):
食物(US) → 分泌唾液(UR)[天生反射]
铃声(NS) → 无反应
阶段2(习得):
铃声(CS)+ 食物(US)→ 分泌唾液(UR)
重复配对10-20次
阶段3(测试):
铃声(CS)→ 分泌唾液(CR)
关键实验证据(Pavlov的原始数据):
| 条件反射阶段 | 唾液分泌量(滴/30秒) |
|-------------|-------------------|
| 前测(仅铃声) | 0 |
| 第5次配对 | 3 |
| 第10次配对 | 8 |
| 第15次配对 | 12 |
| 第20次配对 | 15 |
心理学实验报告通常遵循 APA 格式(目前为第7版),包括以下部分:
| 部分 | 内容 | 常见问题 |
|---|---|---|
| 摘要 | 150-250字,概述问题、方法、结果、结论 | 过于笼统,没有关键数据 |
| 引言 | 研究背景、文献综述、研究假设 | 缺乏明确的理论指向 |
| 方法 | 被试、材料、程序、设计 | 细节不足,无法重复实验 |
| 结果 | 统计检验、效应量、图表 | 只看p值,忽略效应量 |
| 讨论 | 结果解释、局限、理论与应用意义 | 过度推广 |
| 参考文献 | 引用规范 | 格式错误 |
方法部分应足够详细,允许其他研究者精确复制实验。比较两个版本:
❌ 糟糕的方法描述:
"被试被分为两组,一组看广告,一组不看。"
✅ 规范的方法描述:
"120名本科生(平均年龄20.3岁,SD=1.8;58%女性)参加实验获取课程学分,随机分配到实验组和控制组。实验组观看一段30秒的百事可乐广告(屏幕尺寸27英寸,观看距离60cm),控制组观看同等长度的自然风光视频。随后所有被试完成7点李克特量表测量品牌偏好(从1=非常不喜欢到7=非常喜欢,α=0.92)。"
现代实验心理学不只报告p值,还需要报告效应量和置信区间:
**独立样本t检验结果:**
| 指标 | 实验组(M ± SD) | 控制组(M ± SD) | t | df | p | Cohen's d |
|------|----------------|-----------------|---|---|---|-----------|
| 品牌偏好 | 5.32 ± 1.21 | 3.87 ± 1.45 | 5.81 | 118 | < 0.001 | 1.06(大效应) |
95% CI for mean difference: [0.95, 1.95]
效应量解读:Cohen's d = 0.2(小效应)、0.5(中等效应)、0.8(大效应)
传统实验方法正与神经科学技术深度融合:
| 方法 | 空间分辨率 | 时间分辨率 | 测量的生理信号 | 典型应用 |
|---|---|---|---|---|
| fMRI | 高(1-3mm) | 低(2-3秒) | 血氧水平依赖信号 | 记忆、情绪的大脑定位 |
| EEG/ERP | 低(数cm) | 高(1ms) | 头皮电位变化 | 注意、语言加工的时序 |
| MEG | 中等 | 高(1ms) | 脑磁场 | 癫痫定位、感知研究 |
| fNIRS | 中等(1-3cm) | 中等(秒级) | 血氧变化 | 新生儿研究、自然场景 |
| TMS | 刺激特定区域 | ms级调控 | 暂时干扰/增强脑区活动 | 因果推断(视觉、语言) |
互联网使得实验心理学可以大规模、多样化地收集数据:
现代实验心理学越来越多地使用计算建模来测试心理理论:
**强化学习模型示例:**
标准Q-learning模型(用于决策研究):
Q_{t+1}(s, a) = Q_t(s, a) + α · [R_t - Q_t(s, a)]
其中:
- Q(s, a) = 在状态s下选择动作a的期望值
- α = 学习率(0-1,控制新旧信息权重)
- R_t = 实际获得的奖励
案例应用:赌博任务中,通过拟合α值发现:
- 健康被试:α ≈ 0.65(适度更新,能区分好牌和坏牌)
- 前额叶损伤患者:α ≈ 0.85(更新过快,受近期结果影响过大)
- 海马损伤患者:α ≈ 0.40(更新过慢,难以从反馈中学习)
实验心理学正经历一场"可重复性危机"驱动的范式转变:
| 传统实践 | 开放科学实践 |
|---|---|
| 不公开实验材料和数据 | 预注册实验 + 开放数据 |
| p值大于0.05即"不显著"(或反之) | 关注效应量和置信区间 |
| 只报告显著结果(文件抽屉效应) | 发表所有结果,包括零结果 |
| 事后分析(p-hacking) | 预先提交分析计划 |
| 事后决定样本量 | 先验效力分析(a priori power analysis) |
| 单次实验即结论 | 多实验复制 + 大规模复制(如Many Labs项目) |
效应量的重要性:为什么只看p值不够?
| 场景 | p值 | 效应量 d | 结论 |
|---|---|---|---|
| 小样本大效应 | 0.04 | 1.2 | 真实效果,但样本不够 |
| 大样本小效应 | <0.001 | 0.1 | 虽然显著,但实际意义很小 |
| 中等样本中等效应 | 0.30 | 0.3 | 可能确实无差异(也需考虑样本量是否足够) |
p值的正确含义:
p(D|H₀) = 在零假设为真的条件下,获得当前观察结果(或更极端结果)的概率
p值 ≠ 1 - P(H₀|D) ❌(这是贝叶斯因子")
p值 ≠ 研究假设为真的概率 ❌
p值 ≠ 效应量 ❌
常见p值陷阱:
解决方案:
| 设计类型 | 统计方法 | 适用条件 |
|---|---|---|
| 两组被试间 | 独立样本t检验 | 正态分布且方差齐性 |
| 两组被试内 | 配对样本t检验 | 差值正态分布 |
| 多组被试间(单因素) | 单因素方差分析 | 正态分布、方差齐性、独立观测 |
| 多组被试内(单因素) | 重复测量方差分析 | 球形假设 |
| 多因素设计 | 多因素方差分析(ANOVA) | 正态分布、方差齐性 |
| 非参数替代 | Mann-Whitney U、Wilcoxon、Kruskal-Wallis | 不满足正态或方差齐性 |
在研究计划阶段,确定所需的最小样本量:
使用G*Power软件(或pwr包)计算:
参数设定:
- 检验类型:独立样本t检验
- 预期的效应量:d = 0.5(中等效应)
- α错误概率:0.05(双尾)
- 统计力(1-β):0.80
结果:每组需要64名被试(总共128人)
不同效应量所需样本量对比:
| 预期效应量 | 每组所需样本(双尾t检验,α=0.05,检验力=0.80) |
|-----------|---------------------------------------------|
| d = 0.2(小) | 393 |
| d = 0.5(中) | 64 |
| d = 0.8(大) | 26 |
假设我们要研究背景音乐是否影响阅读理解,下面展示从设计到报告的完整流程:
研究问题:听背景音乐是否影响阅读理解的效率和准确度?
理论依据:注意资源有限模型(Kahneman, 1973)认为,音乐消耗了一部分注意资源,导致可用于理解文本的资源减少。
操作假设:
设计类型:2(音乐:有 vs 无)× 2(文本难度:易 vs 难)混合设计
被试间因素:音乐(每组独立被试)
被试内因素:文本难度(所有被试完成两种难度)
因变量:
- 主要指标:10道阅读理解题的正确率(0-100%)
- 次要指标:阅读时间(秒)
额外变量控制:
- 音乐条件:统一播放莫扎特K.448,音量50dB
- 文本长度:每篇800字
- 测试时间:都是上午9-11点
- 被试随机分配(使用随机数表)
- 双盲:被试不知道研究假设,实验者也未知分组
效力分析确定每组需64人(d=0.50,α=0.05,power=0.80)
实际招募140名大学生,随机分配:
- 音乐组:70人(完成易和难两篇)
- 安静组:70人(完成易和难两篇)
排除标准(预先确定):
- 自报听力障碍(排除2人)
- 未完成所有题目(排除3人)
最终有效被试:135人
**描述性统计结果:**
| 条件 | 正确率(%)M ± SD | 阅读时间(秒)M ± SD |
|------|-----------------|--------------------|
| 无音乐 + 简单文本 | 85.4 ± 8.2 | 210 ± 45 |
| 有音乐 + 简单文本 | 81.2 ± 9.1 | 225 ± 52 |
| 无音乐 + 困难文本 | 67.3 ± 12.5 | 340 ± 68 |
| 有音乐 + 困难文本 | 58.1 ± 14.2 | 365 ± 75 |
**2×2 混合方差分析结果:**
| 效应 | F | df | p | η²ₚ |
|------|---|---|----|-------|
| 音乐主效应 | 12.45 | 1, 133 | <0.001 | 0.086 |
| 难度主效应 | 186.72 | 1, 133 | <0.001 | 0.584 |
| 音乐×难度交互效应 | 5.68 | 1, 133 | 0.019 | 0.041 |
**简单效应分析**:
- 简单文本:音乐 vs 无音乐差异不显著,p = 0.082
- 困难文本:音乐组显著低于无音乐组,d = 0.68,p < 0.001
主要发现:
局限性:
未来方向:
相关Wiki页面: