第一章绪论

序贯决策问题 ：需要连续不断地做出决策，才能实现最终目标的问题。

强化学和监督学习的异同点 ：强化学习和监督学习的共同点是两者都需要⼤量的数据进⾏训练，但是两者所需要的数据类型不同。监督学习需要的是多样化的标签数据，强化学习需要的是带有回报的交互数据。

第二章马尔可夫决策过程

马尔可夫性 ：指系统的下一个状态$s_{t+1}$ 仅与当前状态$s_t$ 有关，而与以前的状态无关。

强化学习的目标是给定一个马尔可夫决策过程，寻找最优策略。所谓==策略是指状态到动作的映射==，用符号$\pi$ 表示，指给定状态$s$ 时，动作集上的一个分布，即

$$\pi(a|s)=p[A_t=a|S_t=s]$$

状态值函数（state value function）

状态-行为值函数（state-action value function）

基于值函数的策略学习方法中最关键的是如何计算策略$\pi$ 的值函数，一般有动态规划或蒙特卡罗两种计算方式。

基于模型的强化学习（Model-Based Reinforcement Learning），已知模型为马尔可夫决策过程。

策略迭代算法（Policy Iteration）
1. 策略评估（policy evaluation）
2. 策略改进（policy improvement）
值迭代算法
- 直接计算出最优策略，那么最优状态值函数$V^(s)$ 和最优状态-动作值函数$Q^(s,a)$ 关系为$$V^(s)=\max_aQ^(s,a)$$

基于采样的学习算法称为模型无关的强化学习（Model-Free Reinforcement Learning）算法。

Q函数$Q^\pi(s,a)$为初始状态为$s$ ，并执行动作$a$ 后所能得到的期望总回报，可以写为

$$Q^\pi(s,a)=E_{\tau\sim p(\tau)}[G(\tau_{s_0=s,a_0=a})]$$ 。如果模型未知，Q函数可以通过采样来进行计算，这就是蒙特卡罗方法。

如果采样确定性策略$\pi$ ，则仅对当前策略进行利用（exploitation），缺失了对环境的探索（exploration）

采样和改进策略相同的强化学习方法叫on-policy，采样与改进分别使用不同策略的强化学习方法叫做off-policy。

结合动态规划和蒙特卡罗方法，模拟一段轨迹，每行动一步（或几步），就用贝尔曼方程来评估前状态的价值。当时序差分学习中每次更新的动作数为最大步数时，就等价于蒙特卡洛方法。

更新$\hat{Q}^\pi(s,a)$ 只需要知道当前状态$s$ 和动作$a$ 、奖励$r(s,a,s’)$ 、下一步的状态$s’$ 和动作$a’$ 。

直接在策略空间搜索最佳策略的方法称为策略搜索（policy search）。