会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
黎明程序员
博客园
首页
联系
管理
订阅
1
2
3
4
5
···
11
下一页
[置顶]
该博客暂停维护,新内容将发布在我的知乎账户——黎明程序员
摘要: .
阅读全文
posted @ 2021-11-04 09:57 黎明程序员
阅读(182)
评论(0)
推荐(0)
2021年3月23日
AlphaGo论文解析-第01篇
摘要: 目录 摘要 围棋的困难点分析 如何绕过困难点 AlphaGo思想简介 网络训练流程分析 1.策略网络的监督学习 2.策略网络的强化学习 3.价值网络的强化学习 4.策略网络、价值网络联合MCTS AlphaGo算法小结 AlphaGo棋力评估 Discussion AlphaGo中MCTS的细节*
阅读全文
posted @ 2021-03-23 23:09 黎明程序员
阅读(1244)
评论(0)
推荐(0)
2020年12月26日
目标检测01:常用评价指标(AP、AP50、AP@50:5:95、mAP)
摘要: 目录 Intersection Over Union(IOU) 目标检测中的TP、FP、FN、TN AP指标 mAP指标 AP50、AP@50:5:95指标 实际应用场景下的指标 参考资料 Intersection Over Union(IOU) 绿色框是ground-truth,红色框是预测框体,
阅读全文
posted @ 2020-12-26 18:21 黎明程序员
阅读(37652)
评论(1)
推荐(9)
2020年10月7日
强化学习框架RLlib教程005:Training APIs的使用(四)Debug和外部API
摘要: 目录 Eager模式(Eager Mode) 使用pytorch Episode Traces 日志冗长(Log Verbosity) 栈追踪(Stack Traces) 外部应用API(External Application API) 参考资料 性能问题非常有用。 Eager模式(Eager M
阅读全文
posted @ 2020-10-07 13:37 黎明程序员
阅读(962)
评论(0)
推荐(0)
2020年10月6日
强化学习框架RLlib教程004:Training APIs的使用(三)高级pythonAPI
摘要: 目录 定制训练流程(Custom Training Workflows) 全局协调(Global Coordination) 回调函数和自定义准则(Callbacks and Custom Metrics) 可视化自定义的度量(Visualizing Custom Metrics) 自定义探索行为(
阅读全文
posted @ 2020-10-06 17:29 黎明程序员
阅读(1480)
评论(0)
推荐(0)
2020年10月4日
强化学习框架RLlib教程003:Training APIs的使用(二)基础pythonAPI
摘要: 目录 基础pythonAPI概览 计算动作(Computing Actions) 获取策略状态(Accessing Policy State) 获取模型状态(Accessing Model State) 例子:预处理喂给model的观测值 例子:查询一个policy的动作分布 例子:从DQN模型中获
阅读全文
posted @ 2020-10-04 22:22 黎明程序员
阅读(1841)
评论(0)
推荐(0)
2020年10月3日
强化学习框架RLlib教程002:Training APIs(一)快速入门与配置项
摘要: 目录 开场(Getting Started) 评估训练策略(Evaluating Trained Policies) 指定参数(Specifying Parameters) 指定资源(Specifying Resources) 延伸指南(Scaling Guide) 常用参数 调好的参数文件(Tun
阅读全文
posted @ 2020-10-03 22:40 黎明程序员
阅读(4168)
评论(0)
推荐(0)
2020年10月2日
强化学习框架RLlib教程001:Ray和RLlib介绍
摘要: 目录 什么是Ray 什么是RLlib 简单的代码风格 Policies Sample Batches Training Application Support Customization 参考资料 什么是Ray Ray是一个用于构建和运行分布式应用程序的快速而简单的框架。 Ray通过以下方式完成这一
阅读全文
posted @ 2020-10-02 11:22 黎明程序员
阅读(8214)
评论(0)
推荐(0)
2020年10月1日
强化学习原理源码解读004:A3C (Asynchronous Advantage Actor-Critic)
摘要: 目录 A3C原理 源码实现 参考资料 针对A2C的训练慢的问题,DeepMind团队于2016年提出了多进程版本的A2C,即A3C。 A3C原理 同时开多个worker,最后会把所有的经验集合在一起 一开始有一个全局的网络,假设参数是θ1 每一个worker使用一个cpu去跑,工作之前就把全局的参数
阅读全文
posted @ 2020-10-01 22:23 黎明程序员
阅读(1031)
评论(0)
推荐(0)
强化学习原理源码解读003:Actor-Critic和A2C
摘要: 目录 Policy-based框架的缺点 Valued-based框架的缺点 Actor-Critic结合 算法流程 向Policy Gradient中加入baseline Q网络和V网络的定义 A2C (Advantage Actor-Critic) A2C损失函数的构建 源码实现 参考资料 在强
阅读全文
posted @ 2020-10-01 17:30 黎明程序员
阅读(4030)
评论(1)
推荐(0)
1
2
3
4
5
···
11
下一页
公告