强化学习(Reinforcement Learning, RL) 是机器学习三大核心范式之一,与监督学习和无监督学习并列。其核心思想是让智能体(Agent)在环境(Environment)中通过试错交互学习最优决策策略,以最大化累积奖励。强化学习在序列决策问题上展现出了独特优势——从AlphaGo击败围棋世界冠军、到ChatGPT的RLHF(Reinforcement Learning from Human Feedback)训练、从机械臂灵巧抓取到自动驾驶行为决策,RL已成为人工智能领域最具活力的研究方向之一。
本知识库系统整理了强化学习的核心概念、经典算法、理论基础和前沿进展。本文作为强化学习知识库的总索引,提供完整的知识框架、学习路径规划和内容导航。
强化学习的核心交互过程可描述为:在每个时间步 t,智能体观察环境状态 St,根据策略选择一个动作 At;环境接收该动作后,转移到新状态 St+1 并返回一个即时奖励信号 Rt+1。这个循环持续进行,形成一个轨迹(Trajectory):
S_0, A_0, R_1, S_1, A_1, R_2, S_2, A_2, \dots
```
### 智能体与环境的基本要素
要素 符号 含义 示例(围棋环境)
-----------------------------------
状态空间 $S$ 所有可能状态的集合 棋盘上所有可能的棋子分布(约 $10^170$ 种)
动作空间 $A$ 智能体可执行动作的集合 361个落子位置(19×19棋盘的合法落点)
状态转移函数 $P(s'\s,a)$ 环境动态,从状态 $s$ 执行动作 $a$ 后转移到 $s'$ 的概率 落子后棋盘确定性地进入新状态
奖励函数 $R(s,a)$ 对智能体行为的即时反馈 吃子奖励、贴目、最终胜负
折扣因子 $\gamma \in [0,1)$ 衡量远期奖励的权重 $\gamma = 0.99$ 表示智能体重视长期对局优势
策略 $\pi(a\s)$ 状态到动作的决策规则 AlphaGo的MCTS+策略网络统合决策
状态价值 $V^\pi(s)$ 在策略 $\pi$ 下,状态 $s$ 的长期期望回报 某局面的胜率评估
动作价值 $Q^\pi(s,a)$ 在状态 $s$ 采取动作 $a$ 后的长期期望回报 某位置落子的预期胜率变化
### 强化学习的三要素
Richard Sutton 在《Reinforcement Learning: An Introduction》中明确了强化学习的三个核心特征:
1. **闭环交互(Closed-loop Interaction)**:智能体的动作会影响后续状态,形成因果闭环
2. **无直接监督信号(No Direct Supervision)**:智能体不被告知"正确的动作是什么",只能通过奖励信号间接学习
3. **时序信用分配(Temporal Credit Assignment)**:一个动作的后果可能在多步之后才显现,智能体需将远期回报归因到早期的关键决策
## 知识库结构总览
本知识库将强化学习内容按三个层次组织:**基础理论层**(核心概念与数学基础)、**经典算法层**(主流算法详解)和**前沿扩展层**(高级主题与应用)。
### 第一层:基础理论
页面 核心内容 前置知识
------------------------
[强化学习基础](/zh/rl/basics) MDP五元组、状态/动作价值函数、贝尔曼方程、策略与价值迭代 基础概率论
[马尔可夫决策过程](/zh/rl/mdp) MDP形式化定义、状态转移矩阵、策略评估、最优性准则 概率论、矩阵运算
[探索与利用](/zh/rl/exploration) 多臂老虎机、$\epsilon$-贪心、UCB、汤普森采样、探索策略对比 基础概率论
[动态规划方法](/zh/rl/dynamic-programming) 策略迭代、值迭代、广义策略迭代、原地更新 MDP、贝尔曼方程
[蒙特卡洛方法](/zh/rl/monte-carlo) 回合制更新、首次访问与每次访问、MC控制、重要性采样 大数定律
[时序差分学习](/zh/rl/td-learning) TD(0)、SARSA、TD($\lambda$)、资格迹、前向与后向视角 MC方法、动态规划
### 第二层:经典算法
页面 核心内容 算法类别 适用场景
---------------------------------
[Q学习](/zh/rl/q-learning) Off-policy TD控制、Q值迭代、收敛性分析 Value-Based, Off-Policy 离散动作空间
[深度Q网络](/zh/rl/dqn) 经验回放、目标网络、Double DQN、Dueling DQN、Rainbow Value-Based, Off-Policy 高维状态空间
[策略梯度方法](/zh/rl/policy-gradient) REINFORCE、策略梯度定理、基线技巧 Policy-Based, On-Policy 连续/随机策略
[Actor-Critic方法](/zh/rl/actor-critic) A2C/A3C、优势函数、GAE、批量更新 Actor-Critic 通用框架
[PPO近端策略优化](/zh/rl/ppo) 裁剪代理目标、自适应KL惩罚、信任区域 Actor-Critic, On-Policy 工业级首选
[SAC软Actor-Critic](/zh/rl/sac) 最大熵RL、温度系数自动调节、软策略迭代 Actor-Critic, Off-Policy 连续控制
[DDPG深度确定性策略梯度](/zh/rl/ddpg) 确定性策略、Her、目标策略平滑 Actor-Critic, Off-Policy 连续动作空间
[TD3双延迟DDPG](/zh/rl/td3) 裁剪双Q、延迟更新、目标策略平滑 Actor-Critic, Off-Policy DDPG改进
[多臂老虎机](/zh/rl/multi-armed-bandit) 探索策略、UCB家族、Adversarial Bandit、Contextual Bandit 简化的RL 推荐系统
### 第三层:前沿扩展
页面 核心内容 研究方向 实际应用
---------------------------------
[模仿学习](/zh/rl/imitation-learning) BC、GAIL、DAGGER、逆强化学习 无奖励学习 自动驾驶、机器人
[逆强化学习](/zh/rl/inverse-rl) 最大熵IRL、学徒学习、奖励函数恢复 奖励函数学习 行为建模
[基于模型的RL](/zh/rl/model-based) 世界模型、PlaNet、Dreamer、MuZero 样本效率提升 物理仿真
[离线强化学习](/zh/rl/offline-rl) CQL、BCQ、保守策略评估、分布外动作 数据驱动RL 医疗、工业
[多智能体强化学习](/zh/rl/multi-agent) MAPPO、QMIX、VDN、对手建模 多智能体系统 游戏、交通
[AlphaGo与游戏AI](/zh/rl/alphago) MCTS、AlphaGo Zero、MuZero、自我对弈 游戏AI 围棋、象棋、Atari
[强化学习应用](/zh/rl/applications) 工业案例、RLHF、推荐系统、自动驾驶 工程实践 全行业
[强化学习发展史](/zh/rl/history) 从Minsky到ChatGPT的RL演进脉络 历史回顾 全面理解
## 强化学习的数学基础
### 回报与折扣因子
智能体的目标是最大化**累积折扣回报(Discounted Cumulative Return)**:
G_t = \sum_{k=0}^{\infty} \gamma^k R_
折扣因子 $\gamma$ 的作用及其影响可通过以下数值示例直观理解。假设智能体接收一个三步奖励序列 $[0, 0, +10]$:
$\gamma$ 值 累计回报 $G_0$ 特征 适用场景
-----------------------------------------
0.0 $0 + 0 \times 0 + 0 \times 10 = 0$ 只看即时奖励 一步决策问题
0.5 $0 + 0.5 \times 0 + 0.25 \times 10 = 2.5$ 远近兼顾 中间路径规划
0.9 $0 + 0.9 \times 0 + 0.81 \times 10 = 8.1$ 重视长远 围棋、投资策略
0.99 $0 + 0.99 \times 0 + 0.9801 \times 10 = 9.801$ 几乎无折扣 长期博弈场景
**数值案例:折扣因子的效应时域分析**
假设智能体有两个选择:
- 行动A:立即获得 +1,然后永远为 0
- 行动B:等待 50 步后获得 +100
在 $\gamma = 0.9$ 时:
$$G_A = 1 + 0 = 1
GB=0.950×100≈0.00515×100≈0.515
行动A更好。在 γ=0.99 时:
GB=0.9950×100≈0.605×100=60.5
行动B更好。这说明高折扣因子鼓励长远规划,低折扣因子更注重眼前利益。
贝尔曼方程(Bellman Equation) 是强化学习的核心数学工具,它将价值函数写成递归形式:
状态价值函数的贝尔曼方程:
Vπ(s)=a∈A∑π(a∣s)s′∈S∑P(s′∣s,a)[R(s,a)+γVπ(s′)]
动作价值函数的贝尔曼方程:
Qπ(s,a)=s′∈S∑P(s′∣s,a)[R(s,a)+γa′∈A∑π(a′∣s′)Qπ(s′,a′)]
贝尔曼最优方程(Bellman Optimality Equation):
V∗(s)=a∈Amaxs′∈S∑P(s′∣s,a)[R(s,a)+γV∗(s′)]
Q∗(s,a)=s′∈S∑P(s′∣s,a)[R(s,a)+γa′∈AmaxQ∗(s′,a′)]
考虑一个简单3状态MDP,状态为 S={S1,S2,S3},在每个状态只有一个可选动作。转移矩阵和奖励如下:
当前状态 s 到达 S1 到达 S2 到达 S3 奖励 R(s)
----------------------------------------------------------
S1 0.2 0.6 0.2 -1
S2 0.1 0.2 0.7 +5
S3 0.0 0.0 1.0 -10(吸收态)
取 γ=0.9,通过贝尔曼方程迭代计算 V(s):
迭代 V(S1) V(S2) V(S3) 更新公式(以 V(S2) 为例)
-----------------------------------------------------------
0 0.00 0.00 0.00 初始值
1 -1.00 5.00 -10.00 V(S2)=5+0.9×0=5
2 -0.35 6.68 -10.00 V(S2)=5+0.9×(0.1×(−1)+0.2×5+0.7×(−10))=5+0.9×(−4.6)=0.86→ 等等,这里用上轮值...
3 ... ... ... 迭代更新直至收敛
∞ -10.19 -10.07 -10.00 收敛值
计算过程详解(迭代1→2):
V(S2)new=5+0.9×[0.1×V(S1)old+0.2×V(S2)old+0.7×V(S3)old]
代入 Vold=[0,0,0]:
V(S2)new=5+0.9×[0.1×0+0.2×0+0.7×0]=5
最终所有状态都收敛到接近 −10,因为无论从哪个状态出发,最终都会滑入 S3 这个吸收态并获得持续的 -10 惩罚。这个例子直观展示了价值迭代如何评估长期后果。
强化学习算法全景图
│
├── Model-Based (基于模型)
│ ├── 学习环境模型 → 规划
│ │ ├── Dyna-Q (Dyna架构)
│ │ ├── MuZero (隐式学习模型)
│ │ ├── Dreamer (隐式世界模型)
│ │ └── PlaNet (显式世界模型)
│ └── 已知模型 (如围棋、象棋)
│ └── MCTS (蒙特卡洛树搜索)
│
└── Model-Free (免模型) ← 最常用
├── Value-Based (基于值函数)
│ ├── 表格方法
│ │ ├── Q-Learning
│ │ ├── SARSA
│ │ └── TD Learning
│ └── 函数近似
│ ├── DQN (Deep Q-Network)
│ ├── Double DQN
│ ├── Dueling DQN
│ └── Rainbow DQN
│
├── Policy-Based (基于策略)
│ ├── Monte Carlo Policy Gradient (REINFORCE)
│ ├── Natural Policy Gradient
│ ├── TRPO (Trust Region Policy Optimization)
│ └── PPO (Proximal Policy Optimization)
│
└── Actor-Critic (行动者-评论家)
├── 基本AC
├── A2C / A3C (异步/同步优势AC)
├── GAE (广义优势估计)
└── Off-Policy AC
├── DDPG → TD3
├── SAC (Soft Actor-Critic)
└── IMPALA
在线 vs 离线策略
────────────────
On-Policy: SARSA, PPO, A2C, A3C, TRPO
Off-Policy: Q-Learning, DQN, DDPG, SAC, TD3
| 类别 |
代表性算法 |
策略更新方式 |
核心优势 |
主要局限 |
| On-Policy |
SARSA, PPO, A2C |
用当前策略采集的数据更新 |
更新稳定,理论误差小 |
样本效率低 |
| Off-Policy |
Q-Learning, DQN, SAC |
可用任意策略产生的数据更新 |
样本效率高 |
受分布偏移影响 |
你的问题需要RL吗?
│
├── 是 → 能否建模环境?
│ ├── 是 → Model-Based方法
│ │ └── 是否需要已知模型? → AlphaGo类/MCTS
│ │ └── 需要学习模型? → MuZero/Dreamer
│ │
│ └── 否 → Model-Free方法
│ │
│ ├── 动作空间是离散的?
│ │ ├── 状态空间小(<1000)→ Q-Learning/SARSA
│ │ └── 状态空间大(图像等)→ DQN/Rainbow
│ │
│ └── 动作空间是连续的?
│ ├── 目标确定性? → DDPG/TD3
│ └── 需要随机策略? → SAC/PPO
│
└── 否 → 考虑监督学习或其他范式
以下是在Arcade Learning Environment中,各算法在57款Atari游戏中达到的人类归一化得分(Human Normalized Score, HNS),即 HNS=人类得分−随机得分算法得分−随机得分×100%:
| 算法 |
中位数HNS |
平均HNS |
超过人类的游戏数 |
参数量 |
训练帧数 |
发表年份 |
| DQN (Nature 2015) |
29.5% |
121.9% |
22/57 |
~1.7M |
2亿 |
2015 |
| Double DQN |
47.1% |
136.8% |
28/57 |
~1.7M |
2亿 |
2016 |
| Dueling DQN |
56.8% |
145.7% |
30/57 |
~1.7M |
2亿 |
2016 |
| Prioritized DDQN |
52.0% |
140.3% |
29/57 |
~1.7M |
2亿 |
2016 |
| A3C (FF) |
43.4% |
126.5% |
23/57 |
~1.7M |
2亿 |
2016 |
| Rainbow DQN |
73.1% |
223.1% |
40/57 |
~1.7M |
2亿 |
2017 |
| PPO |
52.0% |
157.9% |
29/57 |
~3.2M |
2亿 |
2017 |
| IMPALA |
46.4% |
174.4% |
31/57 |
~1.7M |
2亿 |
2018 |
| R2D2 |
93.1% |
260.3% |
48/57 |
~10M |
2亿 |
2019 |
关键洞察:
- Rainbow DQN通过组合7种改进技巧,将中位HNS从29.5%提升到73.1%,提升近2.5倍
- R2D2通过循环神经网络和分布式训练突破90%中位数,接近人类水平
- 随着算法进步,"超过人类"的游戏数从22个提升到48个
在MuJoCo物理仿真环境上,各连续控制算法的归一化平均得分(环境依赖,满分约为各环境已知最优):
| 环境 |
SAC |
TD3 |
PPO |
DDPG |
A2C |
SAC表现 |
| HalfCheetah-v2 |
11,435 |
9,636 |
3,954 |
7,726 |
2,580 |
最佳 |
| Hopper-v2 |
3,216 |
3,337 |
2,280 |
1,907 |
1,970 |
接近最佳 |
| Walker2d-v2 |
4,360 |
4,107 |
3,073 |
2,551 |
2,497 |
最佳 |
| Ant-v2 |
4,510 |
3,937 |
3,168 |
771 |
1,261 |
最佳 |
| Humanoid-v2 |
5,890 |
4,239 |
2,716 |
678 |
1,020 |
最佳 |
| Swimmer-v2 |
106 |
113 |
79 |
64 |
76 |
接近最佳 |
关键洞察:
- SAC在5/6的环境中表现最佳,是连续控制的首选算法
- TD3在步态类任务(Hopper)上略优于SAC
- 标准DDPG在高维环境(Ant, Humanoid)中表现较差,TD3是更好的改进版
- A2C在所有环境中表现最弱,说明简单的Actor-Critic在复杂连续控制中不足
在HalfCheetah环境中,不同算法达到5000分所需的环境交互步数(越少表示样本效率越高):
| 算法 |
达到5000分所需步数 |
相对DQN效率 |
| DQN (连续动作) |
无法收敛 |
N/A |
| DDPG |
~5,000,000 |
1× |
| PPO |
~2,000,000 |
2.5× |
| TD3 |
~1,000,000 |
5× |
| SAC |
~300,000 |
16.7× |
| Model-Based (Dreamer) |
~200,000 |
25× |
大部分RL算法需要数百万到数亿次环境交互,在机器人等真实场景中成本极高。解决方案包括:
| 方法 |
核心理念 |
典型算法 |
效率提升 |
| Off-Policy学习 |
重用历史数据 |
SAC, TD3 |
5-10× |
| 基于模型 |
学习世界模型 |
Dreamer, MuZero |
10-50× |
| 模仿学习 |
利用专家数据 |
GAIL, BC |
10-100× |
| 奖励塑形 |
设计密集奖励 |
领域知识 |
2-5× |
在高维或稀疏奖励场景中,随机探索几乎不可能发现有效策略。以下是在Montezuma's Revenge(Atari最难的探索类游戏之一)上不同算法的表现:
| 算法 |
探索策略 |
平均得分 |
发现第一个奖励步数 |
| DQN |
ϵ-greedy |
0 |
从未发现 |
| DQN + ICM |
内在好奇心 |
1,600 |
~200万步 |
| RND (随机网络蒸馏) |
新颖性探测 |
5,400 |
~50万步 |
| Go-Explore |
回溯重置 |
58,000 |
~10万步 |
| Agent57 |
多尺度探索 |
201,100(人类水平) |
~5万步 |
当智能体完成一个复杂任务(如走迷宫100步后获+1奖励),如何将正奖励归因到100步前的某个关键转向决策?典型解决方案:
- 资格迹(Eligibility Traces):如TD(λ),将近期状态-动作对标记为"待信用分配",λ 控制衰减速度
- GAE(广义优势估计):在Actor-Critic中通过 λ 参数平衡偏差与方差
- 逆强化学习:从专家轨迹中学习奖励函数,理解"为什么这个动作重要"
标准RL训练和测试在相同MDP中进行,但真实世界需要泛化到新环境。例如:在100个随机生成的迷宫上训练,然后测试未见过的新迷宫。
| 泛化类型 |
含义 |
代表方法 |
难度等级 |
| 状态泛化 |
未见过状态 |
神经网络近似 |
★★☆ |
| 任务泛化 |
未见过任务变体 |
元学习、多任务RL |
★★★ |
| 环境泛化 |
完全不同环境 |
领域随机化、Sim2Real |
★★★★ |
| 零样本迁移 |
无需微调 |
预训练+提示 |
★★★★★ |
入门阶段(2-3个月)
├── 课程:David Silver 强化学习课程(UCL)
│ └── 配套:Sutton & Barto 教材前8章
├── 实践项目:OpenAI Gym环境
│ └── 实现:Q-Learning在FrozenLake, Policy Gradient在CartPole
└── 掌握基础
├── MDP形式化
├── 动态规划(策略迭代/值迭代)
├── MC方法和TD学习
└── Q-Learning与SARSA
进阶阶段(3-6个月)
├── 课程:CS 294-112 (Sergey Levine, UC Berkeley)
├── 论文精读:DQN → Rainbow, PPO, SAC, TD3
├── 实践项目:Atari游戏 + MuJoCo控制
└── 掌握进阶
├── DQN家族(Nature DQN → Rainbow)
├── 策略梯度方法(REINFORCE → PPO)
├── Actor-Critic(A2C → SAC)
└── 高级主题:GAE, HER, 分布式RL
前沿阶段(持续)
├── 课程:Stanford CS 330 (Meta-Learning)
├── 论文阅读:NeurIPS, ICML, ICLR RL方向
├── 实践项目:多智能体/离线RL/基于模型
└── 前沿领域
├── 离线强化学习(CQL, IQL)
├── 基于模型的RL(Dreamer, MuZero)
├── 多智能体RL(MAPPO, QMIX)
└── RLHF(ChatGPT的核心技术)
| 教材 |
作者 |
推荐指数 |
说明 |
| Reinforcement Learning: An Introduction (2nd Edition) |
Richard S. Sutton & Andrew G. Barto |
★★★★★ |
RL圣经,理论深度无可替代 |
| Algorithms for Reinforcement Learning |
Csaba Szepesvári |
★★★★☆ |
简洁严谨,适合数学基础好的读者 |
| Deep Reinforcement Learning Hands-On |
Maxim Lapan |
★★★★☆ |
代码驱动,实践性强 |
| Grokking Deep Reinforcement Learning |
Miguel Morales |
★★★☆☆ |
可视化讲解,适合入门 |
| 框架 |
维护方 |
特点 |
推荐度 |
| Stable-Baselines3 |
DLR (德国航空航天中心) |
文档完善、接口统一、PyTorch |
★★★★★ |
| Ray/RLlib |
Anyscale |
分布式训练、多算法、工业级 |
★★★★☆ |
| TF-Agents |
Google |
TensorFlow 生态、模块化 |
★★★☆☆ |
| Dopamine |
Google Research |
研究导向、ICE框架 |
★★★☆☆ |
| Tianshou |
清华大学 |
PyTorch、简洁API、中文社区 |
★★★★☆ |
| Acme |
DeepMind |
分布式、组件化、Scalable |
★★★★☆ |
| 环境库 |
场景 |
适用阶段 |
说明 |
| OpenAI Gymnasium |
经典RL基准 |
入门到进阶 |
CartPole, Atari, MuJoCo |
| MiniGrid |
导航任务 |
入门 |
简化网格环境,便于调试 |
| DM Control Suite |
连续控制 |
进阶 |
DeepMind出品,物理仿真 |
| Procgen |
泛化测试 |
进阶 |
16种可随机生成的环境 |
| DM Lab |
3D导航 |
进阶 |
DeepMind的3D环境 |
| MetaWorld |
机械臂操控 |
高级 |
50种元学习基准任务 |
| SMAC (StarCraft II) |
多智能体 |
高级 |
微操挑战 |
| Unity ML-Agents |
3D游戏 |
全阶段 |
灵活的自定义环境 |
| 特性 |
强化学习 |
监督学习 |
| 数据来源 |
自主交互产生 |
标注数据集 |
| 反馈信号 |
标量奖励(稀疏、延迟) |
标签(即时、密集) |
| 数据分布 |
受策略影响(非独立同分布) |
独立同分布假设 |
| 目标 |
最大化累积回报 |
最小化泛化误差 |
| 信用分配 |
需要回溯分析 |
不需要(一步映射) |
| 决策类型 |
序列决策 |
独立预测 |
深度学习为RL提供了强大的函数近似能力,解决了"维度灾难"问题。关键结合点:
| 技术 |
DL的角色 |
经典案例 |
解决的问题 |
| 深度Q网络(DQN) |
卷积网络作为Q函数近似器 |
从像素输入学习Atari游戏 |
高维状态空间(210×160像素) |
| 策略网络 |
神经网络作为策略函数 |
AlphaGo的策略网络 |
超大动作空间(围棋361个落子点) |
| 世界模型 |
生成式模型学习环境动态 |
Dreamer的视频预测 |
样本效率 |
| 表示学习 |
自监督学习提取状态特征 |
CURL, SPR |
数据效率 |
| Transformer |
序列建模 |
Decision Transformer, Gato |
离策略学习、泛化 |
RLHF 将强化学习与人类偏好相结合,是ChatGPT等大语言模型对齐的核心技术。其流程为:
- SFT(Supervised Fine-Tuning):在高质量对话数据上微调预训练模型
- 奖励建模(Reward Modeling):训练一个奖励模型来预测人类偏好
- RL优化(PPO优化):用PPO算法最大化奖励模型的预测得分
详细内容请参见:强化学习应用
MuZero 是DeepMind的里程碑式算法,在不给定游戏规则的情况下,从零学习围棋、象棋和57款Atari游戏,达到超人类水平。其核心创新是隐式学习环境模型——不学习真实的状态转移,而是学习对规划有用的潜在动态。
详细内容请参见:AlphaGo与游戏AI
标准RL需要在线交互,这在医疗诊断、自动驾驶等高风险场景中不可行。离线RL从固定数据集中学习最优策略,无需与环境实时交互。
元强化学习(Meta-RL)让智能体学会"如何学习",在遇到新任务时可以快速适应,仅需少量交互就能推断出任务结构。
约束策略优化(CPO)、拉格朗日方法等技术,在优化回报的同时确保满足安全约束,对自动驾驶、医疗等安全关键领域至关重要。
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
- Mnih, V., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
- Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.
- Haarnoja, T., et al. (2018). Soft Actor-Critic: Off-Policy Maximum Entropy Deep RL with a Stochastic Actor. ICML 2018.
- Fujimoto, S., et al. (2018). Addressing Function Approximation Error in Actor-Critic Methods. ICML 2018.
- Hessel, M., et al. (2018). Rainbow: Combining Improvements in Deep Reinforcement Learning. AAAI 2018.
- Schrittwieser, J., et al. (2020). Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model. Nature, 588(7839), 604-609.
- Schulman, J., et al. (2016). High-Dimensional Continuous Control Using Generalized Advantage Estimation. ICLR 2016.
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.
- Levine, S., et al. (2020). Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems. arXiv preprint arXiv:2005.01643.