0065.强化学习框架RLlib介绍 - 随笔分类 - 黎明程序员

强化学习框架RLlib教程005：Training APIs的使用（四）Debug和外部API

摘要：目录 Eager模式（Eager Mode）使用pytorch Episode Traces 日志冗长（Log Verbosity）栈追踪（Stack Traces）外部应用API（External Application API）参考资料性能问题非常有用。 Eager模式（Eager M 阅读全文

posted @ 2020-10-07 13:37 黎明程序员阅读(959) 评论(0) 推荐(0)

强化学习框架RLlib教程004：Training APIs的使用（三）高级pythonAPI

摘要：目录定制训练流程（Custom Training Workflows）全局协调（Global Coordination）回调函数和自定义准则（Callbacks and Custom Metrics）可视化自定义的度量（Visualizing Custom Metrics）自定义探索行为（阅读全文

posted @ 2020-10-06 17:29 黎明程序员阅读(1478) 评论(0) 推荐(0)

强化学习框架RLlib教程003：Training APIs的使用（二）基础pythonAPI

摘要：目录基础pythonAPI概览计算动作（Computing Actions）获取策略状态（Accessing Policy State）获取模型状态（Accessing Model State）例子：预处理喂给model的观测值例子：查询一个policy的动作分布例子：从DQN模型中获阅读全文

posted @ 2020-10-04 22:22 黎明程序员阅读(1840) 评论(0) 推荐(0)

强化学习框架RLlib教程002：Training APIs（一）快速入门与配置项

摘要：目录开场（Getting Started）评估训练策略（Evaluating Trained Policies）指定参数（Specifying Parameters）指定资源（Specifying Resources）延伸指南（Scaling Guide）常用参数调好的参数文件（Tun 阅读全文

posted @ 2020-10-03 22:40 黎明程序员阅读(4164) 评论(0) 推荐(0)

强化学习框架RLlib教程001：Ray和RLlib介绍

摘要：目录什么是Ray 什么是RLlib 简单的代码风格 Policies Sample Batches Training Application Support Customization 参考资料什么是Ray Ray是一个用于构建和运行分布式应用程序的快速而简单的框架。 Ray通过以下方式完成这一阅读全文

posted @ 2020-10-02 11:22 黎明程序员阅读(8205) 评论(0) 推荐(0)

黎明程序员

随笔分类 - 0065.强化学习框架RLlib介绍

公告