摘要: 关于Pycharm调试运行的一些设置 阅读全文
posted @ 2022-11-30 15:56 Lumarkov 阅读(300) 评论(0) 推荐(0)
摘要: 0.引言 以下展示了在为我们Ubuntu配置Cuda等一系列配件,以在跑程序时用上GPU,而需要进行的操作。 1.确定当前驱动与CUDA版本 通过输入:nvidia-smi,可得到下图信息。易知我的驱动版本为:470.141.03,CUDA版本为11.4. (补充)针对驱动与CUDA的匹配信息可见: 阅读全文
posted @ 2022-10-29 16:49 Lumarkov 阅读(408) 评论(0) 推荐(0)
摘要: 一般来说,从gym引用环境只需要gym.make就可以了,如:env=gym.make('CartPole-v0')。 实际上,创建环境返回的env是一个经过包装的环境,会对step次数进行限制,比如限定小车保持平衡200步后就会失败。 如果用上gym.make().unwrapped则可以得到原始 阅读全文
posted @ 2022-05-17 22:21 Lumarkov 阅读(233) 评论(0) 推荐(0)
摘要: #Mini Batch ##一、什么是Mini Batch 我们已知在梯度下降中需要对所有样本进行处理过后然后走一步,那么如果我们的样本规模的特别大的话效率就会比较低。假如有 500 万,甚至 5000 万个样本 (在我们的业务场景中,一般有几千万行,有些大数据有 10 亿行) 的话走一轮迭代就会非 阅读全文
posted @ 2022-05-17 16:24 Lumarkov 阅读(591) 评论(0) 推荐(0)
摘要: #一些个有助于优化算法的trick ##把部分可观测马尔可夫问题(POMDPs)转回马尔可夫问题(MDP) 解决方案是保持一些过去的观察结果,并将它们作为一种状态。以雅达利游戏为例,我们通常将k个随后的帧叠加在一起,并使用它们作为对每个状态的观察。这允许我们的代理推断出当前状态的动态,例如,得到球的 阅读全文
posted @ 2022-05-17 16:18 Lumarkov 阅读(53) 评论(0) 推荐(0)
摘要: #一、梯度下降之于机器学习 ##1、什么是梯度 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向。 ##2、什么是梯度下降算法 梯度下降法的基本思想可以类比为一个下山的过程。 最高 阅读全文
posted @ 2022-05-15 14:26 Lumarkov 阅读(465) 评论(0) 推荐(0)
摘要: 纯新手向离线强化学习,内容来源于多位学者,本人仅拙劣整合。 阅读全文
posted @ 2022-05-13 00:11 Lumarkov 阅读(2637) 评论(2) 推荐(2)