随笔分类 -  0065.强化学习框架RLlib介绍

以RLlib库的应用为主
摘要:目录 Eager模式(Eager Mode) 使用pytorch Episode Traces 日志冗长(Log Verbosity) 栈追踪(Stack Traces) 外部应用API(External Application API) 参考资料 性能问题非常有用。 Eager模式(Eager M 阅读全文
posted @ 2020-10-07 13:37 黎明程序员 阅读(959) 评论(0) 推荐(0)
摘要:目录 定制训练流程(Custom Training Workflows) 全局协调(Global Coordination) 回调函数和自定义准则(Callbacks and Custom Metrics) 可视化自定义的度量(Visualizing Custom Metrics) 自定义探索行为( 阅读全文
posted @ 2020-10-06 17:29 黎明程序员 阅读(1478) 评论(0) 推荐(0)
摘要:目录 基础pythonAPI概览 计算动作(Computing Actions) 获取策略状态(Accessing Policy State) 获取模型状态(Accessing Model State) 例子:预处理喂给model的观测值 例子:查询一个policy的动作分布 例子:从DQN模型中获 阅读全文
posted @ 2020-10-04 22:22 黎明程序员 阅读(1840) 评论(0) 推荐(0)
摘要:目录 开场(Getting Started) 评估训练策略(Evaluating Trained Policies) 指定参数(Specifying Parameters) 指定资源(Specifying Resources) 延伸指南(Scaling Guide) 常用参数 调好的参数文件(Tun 阅读全文
posted @ 2020-10-03 22:40 黎明程序员 阅读(4164) 评论(0) 推荐(0)
摘要:目录 什么是Ray 什么是RLlib 简单的代码风格 Policies Sample Batches Training Application Support Customization 参考资料 什么是Ray Ray是一个用于构建和运行分布式应用程序的快速而简单的框架。 Ray通过以下方式完成这一 阅读全文
posted @ 2020-10-02 11:22 黎明程序员 阅读(8205) 评论(0) 推荐(0)