蒙特卡罗法需要所有的采样序列都是经历完整的状态序列。如果没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。
时序差分 TD 简介
没有完整的状态序列,只有部分的状态序列,那么如何可以近似求出某个状态的收获呢?
参考贝尔曼方程
\[v_{\pi}(s) = \mathbb{E}_{\pi}(R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t=s) \]
用\(R_{t+1} + \gamma v(S_{t+1})\) 来近似代替 \(G_t\)
TD 目标值——\(R_{t+1} + \gamma v(S_{t+1})\)
TD 误差——\(R_{t+1} + \gamma V(S_{t+1}) -V(S_t)\)
用 TD 目标值近似代替收获 \(G_t\) 的过程叫做 引导,这样只需要两个连续的状态与对应的奖励,就可以尝试求解强化学习问题了。
时序差分 TD 的预测问题求解
\(n\)步时序差分
\(TD(\lambda)\)
时序差分的控制问题求解
时序差分小结
主流的强化学习方法,是许多方法的基础