阿夏z - 博客园

2019年4月18日

摘要：一些推导的笔记上面分解成无穷维，大多数时候都不是的吧。。。这里的d有限维，应该是指相对小于上面的分解的维度的某个数参考资料参考资料，上面是从最小化损失的角度，利用拉格朗日对偶的优化方法求解 pca的另一种最大化方差的解释 kl变换和pca区别阅读全文

posted @ 2019-04-18 20:00 阿夏z 阅读(1621) 评论(0) 推荐(0)

2019年2月21日

tensorflow c++ API加载.pb模型文件并预测图片

摘要： tensorflow python创建模型，训练模型，得到.pb模型文件后，用c++ api进行预测也可以用opencv c++库读取图片Mat复制到Tensor中也可用指针引用的方式转换阅读全文

posted @ 2019-02-21 15:39 阿夏z 阅读(7305) 评论(4) 推荐(1)

2019年2月20日

tensorflow c++接口的编译安装与一些问题记录

摘要：参考这篇文章安装，依次安装bazel,protocbuf,eigen3，然后下载tensorflow源码，编译c++ api，将编译结果拷贝到搜索路径最后测试案例时遇到一些问题 (1)fatal error: absl/strings/string_view.h 解决方案，git clone ht 阅读全文

posted @ 2019-02-20 11:41 阿夏z 阅读(4414) 评论(2) 推荐(0)

2019年1月11日

深度增强学习--总结下吧

摘要：总结下吧 AC框架阅读全文

posted @ 2019-01-11 11:25 阿夏z 阅读(171) 评论(0) 推荐(0)

2019年1月10日

深度增强学习--DPPO

摘要： PPO DPPO介绍 PPO实现代码DPPO 阅读全文

posted @ 2019-01-10 19:37 阿夏z 阅读(1513) 评论(0) 推荐(0)

深度增强学习--DDPG

摘要： DDPG　DDPG介绍2 ddpg输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测公式推导　推导代码实现的gym的pendulum游戏，这个游戏是连续动作的 pendulum环境介绍代码实践阅读全文

posted @ 2019-01-10 19:36 阿夏z 阅读(2523) 评论(0) 推荐(0)

深度增强学习--A3C

摘要： A3C 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高代码实践阅读全文

posted @ 2019-01-10 19:35 阿夏z 阅读(779) 评论(0) 推荐(0)

深度增强学习--DQN的变形

摘要： DQN的变形 double DQN prioritised replay dueling DQN 阅读全文

posted @ 2019-01-10 19:34 阿夏z 阅读(238) 评论(0) 推荐(0)

深度增强学习--Actor Critic

摘要： Actor Critic　value-based和policy-based的结合实例代码阅读全文

posted @ 2019-01-10 15:16 阿夏z 阅读(1128) 评论(0) 推荐(0)

深度增强学习--Policy Gradient

摘要：前面都是value based的方法，现在看一种直接预测动作的方法 Policy Based Policy Gradient 一个介绍 karpathy的博客一个推导推导下面的例子实现的REINFORCE算法实例代码 1 import sys 2 import gym 3 import py 阅读全文

posted @ 2019-01-10 15:15 阿夏z 阅读(1288) 评论(2) 推荐(0)

玉桂狗天下第一可爱

公告