莫烦python强化学习课程
Q-leaning
定义
Q-learning 是一种记录行为值 (Q value) 的方法, 每种在一定状态的行为都会有一个值 Q(s, a)
, 就是说 行为 a
在 s
状态的值是 Q(s, a)
.
Q-learning伪码
Q-learning的算法中,每次更新都用到了Q现实和Q估计,而且 Q learning 的迷人之处就是 在 Q(s1, a2) 现实 中, 也包含了一个 Q(s2) 的最大估计值, 将对下一步的衰减的最大估计和当前所得到的奖励当成这一步的现实。
- Epsilon greedy 是用在决策上的一种策略, 比如 epsilon = 0.9 时, 就说明有90% 的情况我会按照 Q 表的最优值选择行为, 10% 的时间使用随机选行为.
- alpha是学习率, 来决定这次的误差有多少是要被学习的, alpha是一个小于1 的数.
- gamma 是对未来 reward 的衰减值.
Sarsa
Sarsa是说到做到型,Q-learning则是选择最大值,两者学习表格都是一样的,区别在于更新方法。
Sarsa (lambda)
==单步更新和回合更新==
知识点 由于Sarsa算法更新迭代大部分地方跟之前Q-learning类似,所以直接利用python里面类继承的方式。
父类?
评论加载中