会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
玉桂狗天下第一可爱
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
9
下一页
2019年4月18日
KL变换和PCA的数学推导
摘要: 一些推导的笔记 上面分解成无穷维,大多数时候都不是的吧。。。 这里的d有限维,应该是指相对小于上面的分解的维度的某个数 参考资料 参考资料,上面是从最小化损失的角度,利用拉格朗日对偶的优化方法求解 pca的另一种最大化方差的解释 kl变换和pca区别
阅读全文
posted @ 2019-04-18 20:00 阿夏z
阅读(1615)
评论(0)
推荐(0)
2019年2月21日
tensorflow c++ API加载.pb模型文件并预测图片
摘要: tensorflow python创建模型,训练模型,得到.pb模型文件后,用c++ api进行预测 也可以用opencv c++库读取图片Mat复制到Tensor中 也可用指针引用的方式转换
阅读全文
posted @ 2019-02-21 15:39 阿夏z
阅读(7294)
评论(4)
推荐(1)
2019年2月20日
tensorflow c++接口的编译安装与一些问题记录
摘要: 参考这篇文章安装,依次安装bazel,protocbuf,eigen3,然后下载tensorflow源码,编译c++ api,将编译结果拷贝到搜索路径 最后测试案例时遇到一些问题 (1)fatal error: absl/strings/string_view.h 解决方案,git clone ht
阅读全文
posted @ 2019-02-20 11:41 阿夏z
阅读(4408)
评论(2)
推荐(0)
2019年1月11日
深度增强学习--总结下吧
摘要: 总结下吧 AC框架
阅读全文
posted @ 2019-01-11 11:25 阿夏z
阅读(170)
评论(0)
推荐(0)
2019年1月10日
深度增强学习--DPPO
摘要: PPO DPPO介绍 PPO实现 代码DPPO
阅读全文
posted @ 2019-01-10 19:37 阿夏z
阅读(1505)
评论(0)
推荐(0)
深度增强学习--DDPG
摘要: DDPG DDPG介绍2 ddpg输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测 公式推导 推导 代码实现的gym的pendulum游戏,这个游戏是连续动作的 pendulum环境介绍 代码实践
阅读全文
posted @ 2019-01-10 19:36 阿夏z
阅读(2517)
评论(0)
推荐(0)
深度增强学习--A3C
摘要: A3C 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高 代码实践
阅读全文
posted @ 2019-01-10 19:35 阿夏z
阅读(775)
评论(0)
推荐(0)
深度增强学习--DQN的变形
摘要: DQN的变形 double DQN prioritised replay dueling DQN
阅读全文
posted @ 2019-01-10 19:34 阿夏z
阅读(237)
评论(0)
推荐(0)
深度增强学习--Actor Critic
摘要: Actor Critic value-based和policy-based的结合 实例代码
阅读全文
posted @ 2019-01-10 15:16 阿夏z
阅读(1123)
评论(0)
推荐(0)
深度增强学习--Policy Gradient
摘要: 前面都是value based的方法,现在看一种直接预测动作的方法 Policy Based Policy Gradient 一个介绍 karpathy的博客 一个推导 推导 下面的例子实现的REINFORCE算法 实例代码 1 import sys 2 import gym 3 import py
阅读全文
posted @ 2019-01-10 15:15 阿夏z
阅读(1285)
评论(2)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
下一页
公告