Lumarkov

2022年11月30日

关于Pycharm中型Project的python解释器、环境变量、自定义参数个人向导

摘要：关于Pycharm调试运行的一些设置阅读全文

posted @ 2022-11-30 15:56 Lumarkov 阅读(300) 评论(0) 推荐(0)

2022年10月29日

摘要： 0.引言以下展示了在为我们Ubuntu配置Cuda等一系列配件，以在跑程序时用上GPU，而需要进行的操作。 1.确定当前驱动与CUDA版本通过输入：nvidia-smi，可得到下图信息。易知我的驱动版本为：470.141.03，CUDA版本为11.4. （补充）针对驱动与CUDA的匹配信息可见：阅读全文

posted @ 2022-10-29 16:49 Lumarkov 阅读(408) 评论(0) 推荐(0)

2022年5月17日

关于使用gym环境为什么要unwrapped

摘要：一般来说，从gym引用环境只需要gym.make就可以了，如：env=gym.make('CartPole-v0')。实际上，创建环境返回的env是一个经过包装的环境，会对step次数进行限制，比如限定小车保持平衡200步后就会失败。如果用上gym.make().unwrapped则可以得到原始阅读全文

posted @ 2022-05-17 22:21 Lumarkov 阅读(233) 评论(0) 推荐(0)

强化学习常用术语

摘要： #Mini Batch ##一、什么是Mini Batch 我们已知在梯度下降中需要对所有样本进行处理过后然后走一步，那么如果我们的样本规模的特别大的话效率就会比较低。假如有 500 万，甚至 5000 万个样本 (在我们的业务场景中，一般有几千万行，有些大数据有 10 亿行) 的话走一轮迭代就会非阅读全文

posted @ 2022-05-17 16:24 Lumarkov 阅读(591) 评论(0) 推荐(0)

Trick（待完善）

摘要： #一些个有助于优化算法的trick ##把部分可观测马尔可夫问题（POMDPs）转回马尔可夫问题（MDP）解决方案是保持一些过去的观察结果，并将它们作为一种状态。以雅达利游戏为例，我们通常将k个随后的帧叠加在一起，并使用它们作为对每个状态的观察。这允许我们的代理推断出当前状态的动态，例如，得到球的阅读全文

posted @ 2022-05-17 16:18 Lumarkov 阅读(53) 评论(0) 推荐(0)

2022年5月15日

梯度下降与梯度上升

摘要： #一、梯度下降之于机器学习 ##1、什么是梯度在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向。 ##2、什么是梯度下降算法梯度下降法的基本思想可以类比为一个下山的过程。最高阅读全文

posted @ 2022-05-15 14:26 Lumarkov 阅读(465) 评论(0) 推荐(0)

2022年5月13日

离线强化学习基础知识

摘要：纯新手向离线强化学习，内容来源于多位学者，本人仅拙劣整合。阅读全文

posted @ 2022-05-13 00:11 Lumarkov 阅读(2637) 评论(2) 推荐(2)

公告