第一篇-简介

深度强化学习

第一篇:深度强化学习介绍

提纲

  • 什么是强化学习?
  • 强化学习的工作过程?
  • 强化学习的任务分类?
  • 强化学习三种方法?
  • 深度强化学习的”深度“意味着什么?

内容

🙋 强化学习:智能体agent通过与环境互动并获得执行行动的奖励来学习环境。

🙋 强化学习的工作过程:

  1. agent从环境中获取状态

  2. agent基于该状态采取行动

  3. 环境转换到新状态

  4. 环境给agent带来一些奖励

    💭 注:强化学习循环输出state,action和reward的序列。agent的目的是最大化预计累积奖励(expected cumulative reward)

    预期累积奖励公式:

    改进:越到未来,获得的奖励应该打折扣,因此,定义一个\gamma的折扣率,其中0< \gamma <1

    于是预期累积奖励公式为:

    🙋 强化学习的任务分类:

    • 情节性任务:创建一个剧情列表:一个状态,行动,奖励,新状态的列表。任务有一个起点和一个终点(最终状态),例如一个游戏
    • 连续性任务:永远持续(没有终点状态),例如股票交易

    🙋 两种学习方式:

    • 蒙特卡洛法: 在结束时收集奖励,然后计算预期未来奖励

    • 时序差分方法:估算每一步的奖励

      💪 蒙特卡洛法:在一个剧集结束之后查看累积奖励,看看表现如何。然后运用学到的知识开始一个新的游戏。agent在每次迭代时做出更好决策。

      公式如下:

      其中V:maximum expected future reward,former mefr;\alpha:learning rate;

      💪 时序差分方法:每一步的学习,它将更新在过程中发生的非最终状态的价值估计V

      公式如下:

      该方法只在下一步t+1即更新估计值。

    🙋 Exploration and Exploitation 权衡

    • exploration: 寻找有关环境的更多信息
    • exploitation: 利用已知信息来最大化奖励

    🙋 强化学习的三种方法:

    • 基于数值的RL: 目标是优化价值函数V,表明agent在每个状态获得的最大预期未来奖励。每个状态的数值是以该状态为起始点,agent在未来积累的奖励总额的期望。
    • 基于策略的RL:不使用值函数直接优化策略函数\pi(s),该策略定义了给定时间的智能体行为。即action = policy(state)。通过学习一种策略函数,这使得我们得到每个状态最佳的响应操作的映射。两种策略类型:确定性(给定状态下策略将始终返回相同的操作),随机(输出行动上的分布概率)
    • 基于模型的RL:对环境进行建模。需要对每个环境建立模型,不讨论。

    🙋 深度强化学习的“深度”

    对比:传统的Q-learning(经典强化学习)使用传统算法创建一个Q表,帮助我们找到针对每种状态的操作。深度Q-learning使用神经网络(根据状态(q值)来估计奖励)

    img