深度强化学习
第一篇:深度强化学习介绍
提纲
- 什么是强化学习?
- 强化学习的工作过程?
- 强化学习的任务分类?
- 强化学习三种方法?
- 深度强化学习的”深度“意味着什么?
内容
🙋 强化学习:智能体agent通过与环境互动并获得执行行动的奖励来学习环境。
🙋 强化学习的工作过程:
agent从环境中获取状态
agent基于该状态采取行动
环境转换到新状态
环境给agent带来一些奖励
💭 注:强化学习循环输出state,action和reward的序列。agent的目的是最大化预计累积奖励(expected cumulative reward)
预期累积奖励公式:
改进:越到未来,获得的奖励应该打折扣,因此,定义一个\gamma的折扣率,其中0< \gamma <1
于是预期累积奖励公式为:
🙋 强化学习的任务分类:
- 情节性任务:创建一个剧情列表:一个状态,行动,奖励,新状态的列表。任务有一个起点和一个终点(最终状态),例如一个游戏
- 连续性任务:永远持续(没有终点状态),例如股票交易
🙋 两种学习方式:
蒙特卡洛法: 在结束时收集奖励,然后计算预期未来奖励
时序差分方法:估算每一步的奖励
💪 蒙特卡洛法:在一个剧集结束之后查看累积奖励,看看表现如何。然后运用学到的知识开始一个新的游戏。agent在每次迭代时做出更好决策。
公式如下:
其中V:maximum expected future reward,former mefr;\alpha:learning rate;
💪 时序差分方法:每一步的学习,它将更新在过程中发生的非最终状态的价值估计V
公式如下:
该方法只在下一步t+1即更新估计值。
🙋 Exploration and Exploitation 权衡
- exploration: 寻找有关环境的更多信息
- exploitation: 利用已知信息来最大化奖励
🙋 强化学习的三种方法:
- 基于数值的RL: 目标是优化价值函数V,表明agent在每个状态获得的最大预期未来奖励。每个状态的数值是以该状态为起始点,agent在未来积累的奖励总额的期望。
- 基于策略的RL:不使用值函数直接优化策略函数\pi(s),该策略定义了给定时间的智能体行为。即action = policy(state)。通过学习一种策略函数,这使得我们得到每个状态最佳的响应操作的映射。两种策略类型:确定性(给定状态下策略将始终返回相同的操作),随机(输出行动上的分布概率)
- 基于模型的RL:对环境进行建模。需要对每个环境建立模型,不讨论。
🙋 深度强化学习的“深度”
对比:传统的Q-learning(经典强化学习)使用传统算法创建一个Q表,帮助我们找到针对每种状态的操作。深度Q-learning使用神经网络(根据状态(q值)来估计奖励)