分享
Reinforcement Learning
输入“/”快速插入内容
Reinforcement Learning
飞书用户7782
2024年4月8日修改
https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/drl_v5.pdf
1.
学习资料
https://www.boyuai.com/elites/course/xVqhU42F5IDky94x/video/PzjhxfGWOkCb4KdXTZDik
•
先学习UCL David Silver的强化学习课程
Link
。这是强化学习的基础知识,不太包含深度强化学习的部分,但对后续深入理解深度强化学习十分重要;然后学习UC Berkeley的深度强化学习课程
Link
;最后可以可以挑着看OpenAI 的夏令营内容
Link
•
当然,如果希望学习中文的课程,我推荐的是:
◦
上海交通大学的强化学习课程
Link
◦
周博磊老师的强化学习课程
Link
2.
基本概念
简单说,强化学习的过程可以描述为,智能体观察到一个状态
,执行一个动作
,环境反馈给它一个奖励
以及一个新的状态
;然后智能体根据这个状态执行动作
,然后获得
和
...如此往复。
•
actor(agent):
•
action:
•
environment:
•
observation(state):
•
reward:
•
policy:策略,agent会用policy来选取下一步动作;
•
价值函数:用价值函数对当前状态进行评估,看可以对之后的奖励带来多大影响,价值函数值越大,说明agent进入这个状态越有利。
◦
Q函数
•
折扣因子:
举个栗子,space invader游戏,
强化学习和监督学习的区别:
•
RL输入的样本数序列数据,而监督学习里样本都是独立的;
•
RL不知道每一步正确的动作应该是什么,而是自己去发现哪些动作可以带来最多的奖励reward;(即不断地探索和利用,exploration & exploitation)
•
监督学习的反馈是实时的(有label),而RL的反馈一般是延迟的,只有奖励信号(reward signal)
3.
强化学习分类
3.1
model-free VS model-based
model-free 是指环境的状态转移概率未知,model-based是指概率已知。(状态转移概率就是指从当前状态到接下来某一状态的概率,适用于状态数已知且较少的情况)