深度强化学习笔记

第一篇-简介

深度强化学习

第一篇：深度强化学习介绍

提纲

什么是强化学习？
强化学习的工作过程？
强化学习的任务分类？
强化学习三种方法？
深度强化学习的”深度“意味着什么？

内容

🙋 强化学习：智能体agent通过与环境互动并获得执行行动的奖励来学习环境。

🙋 强化学习的工作过程：

agent从环境中获取状态
agent基于该状态采取行动
环境转换到新状态
环境给agent带来一些奖励
💭 注：强化学习循环输出state，action和reward的序列。agent的目的是最大化预计累积奖励（expected cumulative reward）
预期累积奖励公式：
$G_t = \sum_{k=0}^{T}R_{t+k+1}$
改进：越到未来，获得的奖励应该打折扣，因此，定义一个\gamma的折扣率，其中0< \gamma <1
于是预期累积奖励公式为：
$G_t = \sum_{k=0}^{T}\gamma ^{k}R_{t+k+1} where \gamma \in [0,1]$
🙋 强化学习的任务分类:
- 情节性任务：创建一个剧情列表：一个状态，行动，奖励，新状态的列表。任务有一个起点和一个终点（最终状态），例如一个游戏
- 连续性任务：永远持续（没有终点状态），例如股票交易
🙋 两种学习方式：
- 蒙特卡洛法：在结束时收集奖励，然后计算预期未来奖励
- 时序差分方法：估算每一步的奖励
  💪 蒙特卡洛法：在一个剧集结束之后查看累积奖励，看看表现如何。然后运用学到的知识开始一个新的游戏。agent在每次迭代时做出更好决策。
  公式如下：
  $V(S_t)\leftarrow V(S_t)+\alpha [G_t-V(S_t)]$
  其中V：maximum expected future reward，former mefr；\alpha：learning rate；
  💪 时序差分方法：每一步的学习，它将更新在过程中发生的非最终状态的价值估计V
  公式如下：
  $V(S_t)\leftarrow V(S_t)+\alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)]$
  该方法只在下一步t+1即更新估计值。
🙋 Exploration and Exploitation 权衡
- exploration：寻找有关环境的更多信息
- exploitation：利用已知信息来最大化奖励
🙋 强化学习的三种方法：
- 基于数值的RL：目标是优化价值函数V，表明agent在每个状态获得的最大预期未来奖励。每个状态的数值是以该状态为起始点，agent在未来积累的奖励总额的期望。
$v_{\pi}(s) = E_{\pi}[R_[t+1]+\gamma R_(t+2) + \gamma ^2R(t+3)+\dots | S_t=s]$
- 基于策略的RL：不使用值函数直接优化策略函数\pi(s)，该策略定义了给定时间的智能体行为。即action = policy（state）。通过学习一种策略函数，这使得我们得到每个状态最佳的响应操作的映射。两种策略类型：确定性（给定状态下策略将始终返回相同的操作），随机（输出行动上的分布概率）
- 基于模型的RL：对环境进行建模。需要对每个环境建立模型，不讨论。
🙋 深度强化学习的“深度”
对比：传统的Q-learning（经典强化学习）使用传统算法创建一个Q表，帮助我们找到针对每种状态的操作。深度Q-learning使用神经网络（根据状态（q值）来估计奖励）