摘要: 一些推导的笔记 上面分解成无穷维,大多数时候都不是的吧。。。 这里的d有限维,应该是指相对小于上面的分解的维度的某个数 参考资料 参考资料,上面是从最小化损失的角度,利用拉格朗日对偶的优化方法求解 pca的另一种最大化方差的解释 kl变换和pca区别 阅读全文
posted @ 2019-04-18 20:00 阿夏z 阅读(1615) 评论(0) 推荐(0)
摘要: tensorflow python创建模型,训练模型,得到.pb模型文件后,用c++ api进行预测 也可以用opencv c++库读取图片Mat复制到Tensor中 也可用指针引用的方式转换 阅读全文
posted @ 2019-02-21 15:39 阿夏z 阅读(7294) 评论(4) 推荐(1)
摘要: 参考这篇文章安装,依次安装bazel,protocbuf,eigen3,然后下载tensorflow源码,编译c++ api,将编译结果拷贝到搜索路径 最后测试案例时遇到一些问题 (1)fatal error: absl/strings/string_view.h 解决方案,git clone ht 阅读全文
posted @ 2019-02-20 11:41 阿夏z 阅读(4408) 评论(2) 推荐(0)
摘要: 总结下吧 AC框架 阅读全文
posted @ 2019-01-11 11:25 阿夏z 阅读(170) 评论(0) 推荐(0)
摘要: PPO DPPO介绍 PPO实现 代码DPPO 阅读全文
posted @ 2019-01-10 19:37 阿夏z 阅读(1505) 评论(0) 推荐(0)
摘要: DDPG DDPG介绍2 ddpg输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测 公式推导 推导 代码实现的gym的pendulum游戏,这个游戏是连续动作的 pendulum环境介绍 代码实践 阅读全文
posted @ 2019-01-10 19:36 阿夏z 阅读(2517) 评论(0) 推荐(0)
摘要: A3C 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高 代码实践 阅读全文
posted @ 2019-01-10 19:35 阿夏z 阅读(775) 评论(0) 推荐(0)
摘要: DQN的变形 double DQN prioritised replay dueling DQN 阅读全文
posted @ 2019-01-10 19:34 阿夏z 阅读(237) 评论(0) 推荐(0)
摘要: Actor Critic value-based和policy-based的结合 实例代码 阅读全文
posted @ 2019-01-10 15:16 阿夏z 阅读(1123) 评论(0) 推荐(0)
摘要: 前面都是value based的方法,现在看一种直接预测动作的方法 Policy Based Policy Gradient 一个介绍 karpathy的博客 一个推导 推导 下面的例子实现的REINFORCE算法 实例代码 1 import sys 2 import gym 3 import py 阅读全文
posted @ 2019-01-10 15:15 阿夏z 阅读(1285) 评论(2) 推荐(0)