第一章 绪论
序贯决策问题
:需要连续不断地做出决策,才能实现最终目标的问题。
强化学和监督学习的异同点
:强化学习和监督学习的共同点是两者都需要⼤量的数据进⾏训练, 但是两者所需要的数据类型不同。 监督学习需要的是多样化的标签数据, 强化学习需要的是带有回报的交互数据。
第二章 马尔可夫决策过程
马尔可夫性 :指系统的下一个状态$s_{t+1}$ 仅与当前状态$s_t$ 有关,而与以前的状态无关。
强化学习的目标是给定一个马尔可夫决策过程,寻找最优策略。所谓==策略是指状态到动作的映射==,用符号$\pi$ 表示,指给定状态$s$ 时,动作集上的一个分布,即
$$\pi(a|s)=p[A_t=a|S_t=s]$$
状态值函数(state value function)
状态-行为值函数(state-action value function)
基于值函数的学习方法
基于值函数的策略学习方法中最关键的是如何计算策略$\pi$ 的值函数,一般有动态规划或蒙特卡罗两种计算方式。
动态规划算法
基于模型的强化学习(Model-Based Reinforcement Learning),已知模型为马尔可夫决策过程。
- 策略迭代算法(Policy Iteration)
- 策略评估(policy evaluation)
- 策略改进(policy improvement)
- 值迭代算法
- 直接计算出最优策略,那么最优状态值函数$V^(s)$ 和最优状态-动作值函数$Q^(s,a)$ 关系为$$V^(s)=\max_aQ^(s,a)$$
蒙特卡洛方法
基于采样的学习算法称为模型无关的强化学习(Model-Free Reinforcement Learning)算法。
Q函数$Q^\pi(s,a)$为初始状态为$s$ ,并执行动作$a$ 后所能得到的期望总回报,可以写为
$$Q^\pi(s,a)=E_{\tau\sim p(\tau)}[G(\tau_{s_0=s,a_0=a})]$$ 。如果模型未知,Q函数可以通过采样来进行计算,这就是蒙特卡罗方法。
- exploitation & exploration
如果采样确定性策略$\pi$ ,则仅对当前策略进行利用(exploitation),缺失了对环境的探索(exploration)
- on-policy & off-policy
采样和改进策略相同的强化学习方法叫on-policy,采样与改进分别使用不同策略的强化学习方法叫做off-policy。
时序差分学习方法(temporal-difference learning)
结合动态规划和蒙特卡罗方法,模拟一段轨迹,每行动一步(或几步),就用贝尔曼方程来评估前状态的价值。当时序差分学习中每次更新的动作数为最大步数时,就等价于蒙特卡洛方法。
- SARSA算法(State Action Reward State Action)
更新$\hat{Q}^\pi(s,a)$ 只需要知道当前状态$s$ 和动作$a$ 、奖励$r(s,a,s’)$ 、下一步的状态$s’$ 和动作$a’$ 。
基于策略函数的学习方法
直接在策略空间搜索最佳策略的方法称为策略搜索(policy search)。
- 基于梯度的优化
- 无梯度优化
评论加载中