2019-03-13 | Reinforcement Learning | UNLOCK

《深入浅出强化学习-原理入门》笔记

第一章 绪论

序贯决策问题 :需要连续不断地做出决策,才能实现最终目标的问题。

强化学和监督学习的异同点 :强化学习和监督学习的共同点是两者都需要⼤量的数据进⾏训练, 但是两者所需要的数据类型不同。 监督学习需要的是多样化的标签数据, 强化学习需要的是带有回报的交互数据。

第二章 马尔可夫决策过程

马尔可夫性 :指系统的下一个状态$s_{t+1}$ 仅与当前状态$s_t$ 有关,而与以前的状态无关。

​ 强化学习的目标是给定一个马尔可夫决策过程,寻找最优策略。所谓==策略是指状态到动作的映射==,用符号$\pi$ 表示,指给定状态$s$ 时,动作集上的一个分布,即

$$\pi(a|s)=p[A_t=a|S_t=s]$$

状态值函数(state value function)

状态-行为值函数(state-action value function)

基于值函数的学习方法

基于值函数的策略学习方法中最关键的是如何计算策略$\pi​$ 的值函数,一般有动态规划蒙特卡罗两种计算方式。

动态规划算法

基于模型的强化学习(Model-Based Reinforcement Learning),已知模型为马尔可夫决策过程。

  • 策略迭代算法(Policy Iteration)
    1. 策略评估(policy evaluation)
    2. 策略改进(policy improvement)
  • 值迭代算法
    • 直接计算出最优策略,那么最优状态值函数$V^(s)$ 和最优状态-动作值函数$Q^(s,a)$ 关系为$$V^(s)=\max_aQ^(s,a)$$

蒙特卡洛方法

基于采样的学习算法称为模型无关的强化学习(Model-Free Reinforcement Learning)算法。

Q函数$Q^\pi(s,a)$为初始状态为$s$ ,并执行动作$a$ 后所能得到的期望总回报,可以写为

$$Q^\pi(s,a)=E_{\tau\sim p(\tau)}[G(\tau_{s_0=s,a_0=a})]$$ 。如果模型未知,Q函数可以通过采样来进行计算,这就是蒙特卡罗方法。

  • exploitation & exploration

如果采样确定性策略$\pi$ ,则仅对当前策略进行利用(exploitation),缺失了对环境的探索(exploration)

  • on-policy & off-policy

采样和改进策略相同的强化学习方法叫on-policy,采样与改进分别使用不同策略的强化学习方法叫做off-policy。

时序差分学习方法(temporal-difference learning)

​ 结合动态规划和蒙特卡罗方法,模拟一段轨迹,每行动一步(或几步),就用贝尔曼方程来评估前状态的价值。当时序差分学习中每次更新的动作数为最大步数时,就等价于蒙特卡洛方法。

  • SARSA算法(State Action Reward State Action)

更新$\hat{Q}^\pi(s,a)$ 只需要知道当前状态$s$ 和动作$a$ 、奖励$r(s,a,s’)$ 、下一步的状态$s’$ 和动作$a’$ 。

基于策略函数的学习方法

直接在策略空间搜索最佳策略的方法称为策略搜索(policy search)。

  • 基于梯度的优化
  • 无梯度优化

策略梯度(policy gradient)

评论加载中