会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Lumarkov
博客园
首页
联系
订阅
管理
2022年11月30日
关于Pycharm中型Project的python解释器、环境变量、自定义参数个人向导
摘要: 关于Pycharm调试运行的一些设置
阅读全文
posted @ 2022-11-30 15:56 Lumarkov
阅读(300)
评论(0)
推荐(0)
2022年10月29日
强化学习配置GPU相关过程汇总
摘要: 0.引言 以下展示了在为我们Ubuntu配置Cuda等一系列配件,以在跑程序时用上GPU,而需要进行的操作。 1.确定当前驱动与CUDA版本 通过输入:nvidia-smi,可得到下图信息。易知我的驱动版本为:470.141.03,CUDA版本为11.4. (补充)针对驱动与CUDA的匹配信息可见:
阅读全文
posted @ 2022-10-29 16:49 Lumarkov
阅读(408)
评论(0)
推荐(0)
2022年5月17日
关于使用gym环境为什么要unwrapped
摘要: 一般来说,从gym引用环境只需要gym.make就可以了,如:env=gym.make('CartPole-v0')。 实际上,创建环境返回的env是一个经过包装的环境,会对step次数进行限制,比如限定小车保持平衡200步后就会失败。 如果用上gym.make().unwrapped则可以得到原始
阅读全文
posted @ 2022-05-17 22:21 Lumarkov
阅读(233)
评论(0)
推荐(0)
强化学习常用术语
摘要: #Mini Batch ##一、什么是Mini Batch 我们已知在梯度下降中需要对所有样本进行处理过后然后走一步,那么如果我们的样本规模的特别大的话效率就会比较低。假如有 500 万,甚至 5000 万个样本 (在我们的业务场景中,一般有几千万行,有些大数据有 10 亿行) 的话走一轮迭代就会非
阅读全文
posted @ 2022-05-17 16:24 Lumarkov
阅读(591)
评论(0)
推荐(0)
Trick(待完善)
摘要: #一些个有助于优化算法的trick ##把部分可观测马尔可夫问题(POMDPs)转回马尔可夫问题(MDP) 解决方案是保持一些过去的观察结果,并将它们作为一种状态。以雅达利游戏为例,我们通常将k个随后的帧叠加在一起,并使用它们作为对每个状态的观察。这允许我们的代理推断出当前状态的动态,例如,得到球的
阅读全文
posted @ 2022-05-17 16:18 Lumarkov
阅读(53)
评论(0)
推荐(0)
2022年5月15日
梯度下降与梯度上升
摘要: #一、梯度下降之于机器学习 ##1、什么是梯度 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向。 ##2、什么是梯度下降算法 梯度下降法的基本思想可以类比为一个下山的过程。 最高
阅读全文
posted @ 2022-05-15 14:26 Lumarkov
阅读(465)
评论(0)
推荐(0)
2022年5月13日
离线强化学习基础知识
摘要: 纯新手向离线强化学习,内容来源于多位学者,本人仅拙劣整合。
阅读全文
posted @ 2022-05-13 00:11 Lumarkov
阅读(2637)
评论(2)
推荐(2)
公告