Temporal-Difference Learning

2021-05-312021-05-31强化学习4 分钟读完 (大约652个字)

时序差分（Temporal-Difference）简介

时序差分是强化学习的核心观点。
时序差分是DP和MC方法的结合。
MC要等一个完整的序列结束，比如玩21点扑克，直到玩完才能知道是胜是负；相反，时序差分每经历一步，都会更新价值函数，因为每一步都会观察到一个新的Reward，比如Grid World，每走一步都知道reward是什么。
TD往往比MC高效；TD和MC都使用经验（experience）来解决预测问题。
所谓差分就是下一个时刻的估计和当前时刻的估计的差。

笔记, Temporal-Difference