摘要:
__call__ 参考:https://www.cnblogs.com/superxuezhazha/p/5793536.html在Python中,函数其实是一个对象: >>> f = abs>>> f.__name__'abs'>>> f(-123)由于 f 可以被调用,所以,f 被称为可调用对象 阅读全文
posted @ 2019-07-09 19:47
LIN_KID
阅读(5761)
评论(0)
推荐(0)
摘要:
1\内容 2、tf_util 阅读全文
posted @ 2019-07-09 18:37
LIN_KID
阅读(656)
评论(0)
推荐(0)
摘要:
1、Actor-Critic\TRPO\PPO算法都属于on-policy(类似重要性采样,old_pi还是自己的策略),DDPG是off-policy 2、on-policy数据用完就丢掉了,off-policy会用到经验回放(很大的存储上限,有收集样本和采集样本两个过程,采用均匀采样) 3、on 阅读全文
posted @ 2019-07-09 15:59
LIN_KID
阅读(159)
评论(0)
推荐(0)

浙公网安备 33010602011771号