深度强化学习笔记

第三篇：简介OpenAI的Gym

深度强化学习

第三篇：简介OpenAI的Gym

提纲

什么是Gym

常用的相关函数

内容

🙋‍♂ 什么是Gym？

训练参数的基本平台openai的Gym，与tensorflow无缝连接，仅支持python，本质是一组微分方程，简单的模型手动推导，复杂的模型需要用一些强大的物理引擎，如ODE, Bullet, Havok, Physx等，Gym在搭建机器人仿真环境用的是mujoco，ROS里面的物理引擎是gazebo。

🙋‍♂ 常用的相关函数

reset() 初始化函数


xxxxxxxxxx
10
1
def reset(self):
2
    """ 重新初始化函数 """
3
    # 利用均匀随机分布初试化环境的状态 
4
    self.state = self.np_random.uniform(low=-0.05, high=0.05, size=(4,))
5
    
6
    # 设置当前步数为None
7
    self.steps_beyond_done = None
8
    
9
    # 返回环境的初始化状态
10
    return np.array(self.state)

render() 图像引擎


xxxxxxxxxx
1
64
1
def render(self, mode='human'):
2
    """ render()函数在这里扮演图像引擎的角色。一个仿真环境必不可少的两部分是物理引擎和图像引擎。物理引擎模拟环境中物体的运动规律；图像引擎用来显示环境中的物体图像 """
3
    screen_width = 600
4
    screen_height = 400
5
 
6
    world_width = self.x_threshold*2
7
    scale = screen_width/world_width
8
    carty = 100 # TOP OF CART
9
    polewidth = 10.0
10
    polelen = scale * 1.0
11
    cartwidth = 50.0
12
    cartheight = 30.0
13
 
14
    if self.viewer is None:
15
        # 导入rendering模块，利用rendering模块中的画图函数进行图形的绘制
16
        from gym.envs.classic_control import rendering
17
 
18
        # 绘制600*400的窗口函数为screen_width*screen_height
19
        self.viewer = rendering.Viewer(screen_width, screen_height)
20
        
21
        # 创建cart矩形,rendering.FilledPolygon为填充一个矩形
22
        l,r,t,b = -cartwidth/2, cartwidth/2, cartheight/2, -cartheight/2
23
        axleoffset =cartheight/4.0
24
        cart = rendering.FilledPolygon([(l,b), (l,t), (r,t), (r,b)])
25
        # Transform给cart添加平移属性和旋转属性
26
        self.carttrans = rendering.Transform()
27
        cart.add_attr(self.carttrans)
28
        # 在图上加入几何cart
29
        self.viewer.add_geom(cart)
30
 
31
        # 创建摆杆pole
32
        l,r,t,b = -polewidth/2,polewidth/2,polelen-polewidth/2,-polewidth/2
33
        pole = rendering.FilledPolygon([(l,b), (l,t), (r,t), (r,b)])        
34
        # 给pole设置颜色
35
        pole.set_color(.8,.6,.4)
36
        # 添加摆杆转换矩阵属性
37
        self.poletrans = rendering.Transform(translation=(0, axleoffset))
38
        pole.add_attr(self.poletrans)
39
        pole.add_attr(self.carttrans)
40
        # 加入几何体
41
        self.viewer.add_geom(pole)
42
        
43
        # 创建摆杆和台车之间的连接
44
        self.axle = rendering.make_circle(polewidth/2)
45
        self.axle.add_attr(self.poletrans)
46
        self.axle.add_attr(self.carttrans)
47
        self.axle.set_color(.5,.5,.8)
48
        self.viewer.add_geom(self.axle)
49
        
50
        #创建台车来回滑动的轨道，即一条直线
51
        self.track = rendering.Line((0,carty), (screen_width,carty))
52
        self.track.set_color(0,0,0)
53
        self.viewer.add_geom(self.track)
54
 
55
    if self.state is None: return None
56
 
57
    # 设置平移属性
58
    x = self.state
59
    cartx = x[0]*scale+screen_width/2.0 # MIDDLE OF CART
60
    self.carttrans.set_translation(cartx, carty)
61
    self.poletrans.set_rotation(-x[2])
62
 
63
    return self.viewer.render(return_rgb_array = mode=='rgb_array')

step() 物理引擎


xxxxxxxxxx
1
46
1
def step(self, action):
2
    """ 该函数在仿真器中扮演物理引擎的角色。其输入是动作a，输出是：下一步状态，立即回报，是否终止，调试项。该函数描述了智能体与环境交互的所有信息，是环境文件中最重要的函数。在该函数中，一般利用智能体的运动学模型和动力学模型计算下一步的状态和立即回报，并判断是否达到终止状态 """
3
    assert self.action_space.contains(action), "%r (%s) invalid"%(action, type(action))
4
    state = self.state
5
    # 系统的当前状态
6
    x, x_dot, theta, theta_dot = state
7
    # 输入动作，即作用到车上的力
8
    force = self.force_mag if action==1 else -self.force_mag
9
    # 余弦函数
10
    costheta = math.cos(theta)
11
    # 正弦函数
12
    sintheta = math.sin(theta)
13
    # 车摆的动力学方程式，即加速度与动作之间的关系
14
    temp = (force + self.polemass_length * theta_dot * theta_dot * sintheta) / self.total_mass
15
    # 摆的角加速度
16
    thetaacc = (self.gravity * sintheta - costheta* temp) / (self.length * (4.0/3.0 - self.masspole * costheta * costheta / self.total_mass))
17
    # 小车的平加速度
18
    xacc  = temp - self.polemass_length * thetaacc * costheta / self.total_mass
19
    # tau是更新步长0.02，下面是计算下一步的状态
20
    x  = x + self.tau * x_dot
21
    x_dot = x_dot + self.tau * xacc
22
    theta = theta + self.tau * theta_dot
23
    theta_dot = theta_dot + self.tau * thetaacc
24
    self.state = (x,x_dot,theta,theta_dot)
25
    # 设定小车和摆杆的阈值
26
    done =  x < -self.x_threshold \
27
            or x > self.x_threshold \
28
            or theta < -self.theta_threshold_radians \
29
            or theta > self.theta_threshold_radians
30
    done = bool(done)
31
 
32
    # 
33
    if not done:
34
        reward = 1.0
35
    elif self.steps_beyond_done is None:
36
        # Pole just fell!
37
        self.steps_beyond_done = 0
38
        reward = 1.0
39
    else:
40
        if self.steps_beyond_done == 0:
41
            logger.warn("You are calling 'step()' even though this environment has already returned done = True. You should always call 'reset()' once you receive 'done = True' -- any further steps are undefined behavior.")
42
        self.steps_beyond_done += 1
43
        reward = 0.0
44
 
45
    return np.array(self.state), reward, done, {}

一个简单的Demo


xxxxxxxxxx
1
14
1
import gym
2
import time
3
env = gym.make('CartPole-v0')   #创造环境
4
observation = env.reset()       #初始化环境，observation为环境状态
5
count = 0
6
for t in range(100):
7
    action = env.action_space.sample()  #随机采样动作
8
    observation, reward, done, info = env.step(action)  #与环境交互，获得下一步的时刻
9
    if done:             
10
        break
11
    env.render()         #绘制场景
12
    count+=1
13
    time.sleep(0.2)      #每次等待0.2s
14
print(count)             #打印该次尝试的步数

Gym有一些已经有的环境，关于全新的Gym二次开发，请查看
💭 下一篇终于涉及到“深度”了，关于深度Q网络