在code中加入trick
模仿PPO官方写法,将keras的dense层,进行正交初始化,方法如下:
vf = Dense(units[0], name="Value_L0", activation="tanh", kernel_initializer=tf.keras.initializers.Orthogonal(gain=1.0, seed=None))(state) for index in range(1, len(units)): vf = Dense(units[index], name="Value_L{}".format(index), activation="tanh",kernel_initializer=tf.keras.initializers.Orthogonal(gain=1.0, seed=None))(vf)
初始化器使用:kernel_initializer=tf.keras.initializers.Orthogonal(gain=1.0, seed=None)
据说PPO的trick成分比算法提高更多,下来将按照https://zhuanlan.zhihu.com/p/99061859一文中的方法逐项尝试.

浙公网安备 33010602011771号