黎明程序员

摘要： . 阅读全文

posted @ 2021-11-04 09:57 黎明程序员阅读(183) 评论(0) 推荐(0)

2021年3月23日

摘要：目录摘要围棋的困难点分析如何绕过困难点 AlphaGo思想简介网络训练流程分析 1.策略网络的监督学习 2.策略网络的强化学习 3.价值网络的强化学习 4.策略网络、价值网络联合MCTS AlphaGo算法小结 AlphaGo棋力评估 Discussion AlphaGo中MCTS的细节* 阅读全文

posted @ 2021-03-23 23:09 黎明程序员阅读(1290) 评论(0) 推荐(0)

2020年12月26日

目标检测01：常用评价指标（AP、AP50、AP@50:5:95、mAP）

摘要：目录 Intersection Over Union(IOU) 目标检测中的TP、FP、FN、TN AP指标 mAP指标 AP50、AP@50:5:95指标实际应用场景下的指标参考资料 Intersection Over Union(IOU) 绿色框是ground-truth，红色框是预测框体，阅读全文

posted @ 2020-12-26 18:21 黎明程序员阅读(38028) 评论(1) 推荐(9)

2020年10月7日

强化学习框架RLlib教程005：Training APIs的使用（四）Debug和外部API

摘要：目录 Eager模式（Eager Mode）使用pytorch Episode Traces 日志冗长（Log Verbosity）栈追踪（Stack Traces）外部应用API（External Application API）参考资料性能问题非常有用。 Eager模式（Eager M 阅读全文

posted @ 2020-10-07 13:37 黎明程序员阅读(972) 评论(0) 推荐(0)

2020年10月6日

强化学习框架RLlib教程004：Training APIs的使用（三）高级pythonAPI

摘要：目录定制训练流程（Custom Training Workflows）全局协调（Global Coordination）回调函数和自定义准则（Callbacks and Custom Metrics）可视化自定义的度量（Visualizing Custom Metrics）自定义探索行为（阅读全文

posted @ 2020-10-06 17:29 黎明程序员阅读(1490) 评论(0) 推荐(0)

2020年10月4日

强化学习框架RLlib教程003：Training APIs的使用（二）基础pythonAPI

摘要：目录基础pythonAPI概览计算动作（Computing Actions）获取策略状态（Accessing Policy State）获取模型状态（Accessing Model State）例子：预处理喂给model的观测值例子：查询一个policy的动作分布例子：从DQN模型中获阅读全文

posted @ 2020-10-04 22:22 黎明程序员阅读(1854) 评论(0) 推荐(0)

2020年10月3日

强化学习框架RLlib教程002：Training APIs（一）快速入门与配置项

摘要：目录开场（Getting Started）评估训练策略（Evaluating Trained Policies）指定参数（Specifying Parameters）指定资源（Specifying Resources）延伸指南（Scaling Guide）常用参数调好的参数文件（Tun 阅读全文

posted @ 2020-10-03 22:40 黎明程序员阅读(4215) 评论(0) 推荐(0)

2020年10月2日

强化学习框架RLlib教程001：Ray和RLlib介绍

摘要：目录什么是Ray 什么是RLlib 简单的代码风格 Policies Sample Batches Training Application Support Customization 参考资料什么是Ray Ray是一个用于构建和运行分布式应用程序的快速而简单的框架。 Ray通过以下方式完成这一阅读全文

posted @ 2020-10-02 11:22 黎明程序员阅读(8320) 评论(0) 推荐(0)

2020年10月1日

强化学习原理源码解读004：A3C (Asynchronous Advantage Actor-Critic)

摘要：目录 A3C原理源码实现参考资料针对A2C的训练慢的问题，DeepMind团队于2016年提出了多进程版本的A2C，即A3C。 A3C原理同时开多个worker，最后会把所有的经验集合在一起一开始有一个全局的网络，假设参数是θ1 每一个worker使用一个cpu去跑，工作之前就把全局的参数阅读全文

posted @ 2020-10-01 22:23 黎明程序员阅读(1049) 评论(0) 推荐(0)

强化学习原理源码解读003：Actor-Critic和A2C

摘要：目录 Policy-based框架的缺点 Valued-based框架的缺点 Actor-Critic结合算法流程向Policy Gradient中加入baseline Q网络和V网络的定义 A2C (Advantage Actor-Critic) A2C损失函数的构建源码实现参考资料在强阅读全文

posted @ 2020-10-01 17:30 黎明程序员阅读(4087) 评论(1) 推荐(0)

公告