在code中加入trick

模仿PPO官方写法,将keras的dense层,进行正交初始化,方法如下:

 

    vf = Dense(units[0], name="Value_L0", activation="tanh", kernel_initializer=tf.keras.initializers.Orthogonal(gain=1.0, seed=None))(state)
    for index in range(1, len(units)):
        vf = Dense(units[index], name="Value_L{}".format(index), activation="tanh",kernel_initializer=tf.keras.initializers.Orthogonal(gain=1.0, seed=None))(vf)
初始化器使用:kernel_initializer=tf.keras.initializers.Orthogonal(gain=1.0, seed=None)


据说PPO的trick成分比算法提高更多,下来将按照https://zhuanlan.zhihu.com/p/99061859一文中的方法逐项尝试.


posted @ 2021-02-04 20:43  domoRL  阅读(75)  评论(0)    收藏  举报