时序差分学习

¶ 时序差分学习：强化学习中的核心算法框架

¶ TD 学习的核心思想

¶ TD(0) 算法

¶ SARSA：同策略 TD 控制

¶ TD 学习的数学基础

¶ n 步 TD 学习

¶ TD(λ) 与资格迹

¶ 期望 SARSA

¶ 同策略与离策略学习

¶ TD 学习的收敛理论

¶ 实践指南

¶ 与深度学习的结合

¶ 与 TD 密切相关的主题

¶ 参考资源