2025 年 3月随笔档案 - Angry_Panda

价值判断：一位战斗英雄在路边牺牲自己去救下了一个群众，但是谁知没几天后这个被救的人就杀人放火强奸和抢银行成了罪大恶极的人，那么这位牺牲自己就下日后成了大恶人的这位英雄做的是否有价值呢

摘要：一位战斗英雄在路边牺牲自己去救下了一个群众，但是谁知没几天后这个被救的人就杀人放火强奸和抢银行成了罪大恶极的人，那么这位牺牲自己就下日后成了大恶人的这位英雄做的是否有价值呢 DeepSeek 生成：嗯，这个问题看起来有点复杂。首先，用户问的是，一个战斗英雄为了救一个路人而牺牲了自己，但后来那个被救阅读全文

posted @ 2025-03-31 10:03 Angry_Panda 阅读(94) 评论(0) 推荐(0)

大学同窗好友做的公众号 —— 励志鸡汤号 —— 知识补给站 —— "认知无穷大"

摘要：抖音号： https://www.douyin.com/user/MS4wLjABAAAAjAm6u3kAZLhYDiW1T_C-2FtfjUyj_UxQWLVN6XttAmpZPSWdtZyeYnt6TWyqzEaM 诚邀关注微信公众号：“"认知无穷大"” 阅读全文

posted @ 2025-03-30 14:32 Angry_Panda 阅读(43) 评论(0) 推荐(0)

python报错：raise ValueError("Object arrays cannot be loaded when " ValueError: Object arrays cannot be loaded when allow_pickle=False

摘要：raise ValueError("Object arrays cannot be loaded when " ValueError: Object arrays cannot be loaded when allow_pickle=False 解决方法，相关：https://blog.csdn.n 阅读全文

posted @ 2025-03-28 10:46 Angry_Panda 阅读(63) 评论(0) 推荐(0)

减肥运动操 —— 更适合中国女生体质的帕梅拉！动动更健康，跟我一起打卡吧！

摘要：地址： https://mbd.baidu.com/newspage/data/videolanding?nid=sv_8491858097714041052 https://mbd.baidu.com/newspage/data/videolanding?nid=sv_84918580977140 阅读全文

posted @ 2025-03-26 20:05 Angry_Panda 阅读(39) 评论(0) 推荐(0)

使用opencv 实现图片序列化为视频写入到视频文件中（时序化RGB数据写入为mp4视频文件）——强化学习——使用opencv 记录gym中的mujoco运动视频

摘要：使用DeepSeek 生成： import cv2 import numpy as np # 初始化视频写入器 fourcc = cv2.VideoWriter_fourcc(*'mp4v') # 编码器类型 fps = 30 # 帧率 (需与实际帧率匹配) width, height = 640, 阅读全文

posted @ 2025-03-25 21:48 Angry_Panda 阅读(191) 评论(0) 推荐(0)

Gym —— mujoco报错：AttributeError: 'mujoco._structs.MjData' object has no attribute 'get_body_xmat'

摘要：使用DeepSeek 生成答案：好的，用户遇到了一个AttributeError，提示MjData对象没有'get_body_xmat'属性。我需要帮他们解决这个问题。首先，我应该确认问题所在。用户提供的代码中，在AntEnv类的_get_obs方法里，使用了self.data.get_body 阅读全文

posted @ 2025-03-25 16:49 Angry_Panda 阅读(147) 评论(0) 推荐(0)

如何保证社会的公平性

摘要：在我看来，在我狭隘的观点来看，这个问题最基本的一点需要做到的就是要保证社会的阶级流动性，或者说在当前背景下就是要保证社会底层可以有通道上升，如果做不到或者很难做到，那么社会至少要保证社会底层家庭的孩子可以有一条公平和畅通的上升通道，如果这样也实现不了，那么这个社会的公平度就会被缓慢的减少，如果有个二阅读全文

posted @ 2025-03-25 14:24 Angry_Panda 阅读(18) 评论(0) 推荐(0)

元强化学习算法：MAML —— 实验环境的分析 —— half_cheetah —— gym和gymnasium

摘要：元强化学习算法，在几年前曾经火热过一小段时间，然后就几乎是销声匿迹了，虽然现在也偶尔有这个方向的research paper发表，不过也都是那最早的那几篇基础上改动不大，几乎就是个缝合怪，自己当年也是入了这个坑，搞了这个研究方向，也就一直搞到了如今。元强化学习算法最为有代表的就是MAML算法，其实阅读全文

posted @ 2025-03-25 13:33 Angry_Panda 阅读(184) 评论(0) 推荐(0)

有句话说得好:“千金在手不如薄技在身”，还有一句话:“荒年饿不死手艺人”—— “靠手艺自立更生的女艺人”—— 51岁的王艳和46岁温峥嵘，角色反差飙戏，颜值演技双在线

摘要：相关： https://mbd.baidu.com/newspage/data/videolanding?nid=sv_4526505582096653727&sourceFrom=qmj 演艺圈的女明星向来喜欢嫁富豪，但是嫁给富豪的那么多女明星中最后过得好的却是寥寥，其中更有甚者是嫁过去没享受多久阅读全文

posted @ 2025-03-24 13:31 Angry_Panda 阅读(31) 评论(0) 推荐(0)

mujoco py install error - fatal error: GL/osmesa.h: No such file or directory

摘要：地址： https://github.com/ethz-asl/reinmav-gym/issues/35 conda install -c conda-forge mesalib glew glfw 阅读全文

posted @ 2025-03-21 21:13 Angry_Panda 阅读(76) 评论(0) 推荐(0)

python报错：ImportError: ../lib/libstdc++.so.6: version `GLIBCXX_3.4.30' not found (required by /lib/x86_64-linux-gnu/libLLVM-15.so.1)

摘要：conda环境下解决： conda install -c conda-forge gcc=12.1.0 阅读全文

posted @ 2025-03-21 20:28 Angry_Panda 阅读(131) 评论(0) 推荐(0)

机器学习 —— 数理统计 —— 无偏估计的方差

摘要：无偏估计的方差 DeepSeek 思考：嗯，用户问的是“无偏估计的方差”，这应该是在统计学中的内容。首先，我得回忆一下什么是无偏估计。无偏估计指的是估计量的期望等于被估计参数的真实值，也就是说，这个估计量在多次抽样下不会有系统性的偏差。那方差的无偏估计，可能指的是样本方差的无偏估计，通常用的是n- 阅读全文

posted @ 2025-03-21 15:54 Angry_Panda 阅读(371) 评论(0) 推荐(0)

写作文章的AI检测 —— AI自动写作的检测工具

摘要：地址： https://app.gptzero.me/ 现在的投稿，写作的论文，往往都需要被AI检测系统检测一下，用来判断这个文章是人写的概率有多少，这个时候就需要自检一下，毕竟在写的时候多少还是会有用到AI辅助的，如果用这个工具检测出来的AI结果毕竟高的话那就需要自己修修了。阅读全文

posted @ 2025-03-21 14:35 Angry_Panda 阅读(183) 评论(0) 推荐(0)

被放养的博士能靠自己毕业嘛？

摘要：对于很多人来说，写论文确实是一个让很多人感到无从下手的任务。众所周知，论文发表是学术界的“登天梯”。而很多本硕博开学就需要面对：导师放养，基本不沟通没有创新点，确定不了选题和方向代码就是跑不出来阅读全文

posted @ 2025-03-21 11:32 Angry_Panda 阅读(33) 评论(0) 推荐(0)

中科院SCI分区2025版 —— 中科院分区表网站崩溃了！！！

摘要：中科院分区表查询地址：（2025版本） https://www.fenqubiao.com/ 阅读全文

posted @ 2025-03-21 10:29 Angry_Panda 阅读(388) 评论(0) 推荐(0)

中科院SCI分区（2025版本）—— 2025年期刊分区表官方正式发布!

摘要：地址： https://mp.weixin.qq.com/s/yBvB4LenmlbgPvX2HhWVPg 中科院分区表查询地址：（2025版本） https://www.fenqubiao.com/ 2025年期刊分区表沿用和增加如下规则： 1）沿用Review期刊分区规则，Review期刊不占用阅读全文

posted @ 2025-03-21 09:14 Angry_Panda 阅读(13313) 评论(0) 推荐(0)

数值优化 —— CPU版本的共轭梯度法和GPU版本的共轭梯度法，到底哪个快？？？—— pytorch实现

摘要：共轭梯度法，是数值优化算法中才会用到的一个算法，可以说共轭梯度法并不是一个求最优值的算法，但是在数值优化算法中的那些球最优值的算法很多都会用到这个共轭梯度法，于是这个共轭梯度法也就显得蛮有用的。共轭梯度法本身运算起来还是很消耗运算量的，平时见到的实现版本一般都是CPU版本，由于搞pytorch，突阅读全文

posted @ 2025-03-20 20:39 Angry_Panda 阅读(64) 评论(0) 推荐(0)

在磁盘上创建空的大文件 —— windows 上采取预分配的策略

摘要：注意：本文是读windows 稀疏文件 (sparse file) 的一个实用场景——解决 SetEndOfFile 占据磁盘空间引入的性能问题的一些笔记。在读这个blog之前是不了解磁盘系统的这个预分配的策略的，看了以后又多了些奇奇怪怪的知识。重点：写入 4G 文件末尾 1 个字节，消耗了阅读全文

posted @ 2025-03-20 20:06 Angry_Panda 阅读(46) 评论(0) 推荐(0)

卫生巾，直观感觉到了阶级差距！！！ —— 如果连人们日常生活的必需品的品质都无法保证，那又如何向人们证明其合法性

摘要：相关： https://mbd.baidu.com/newspage/data/videolanding?nid=sv_5442165276542667889&sourceFrom=qmj 阅读全文

posted @ 2025-03-20 10:22 Angry_Panda 阅读(23) 评论(0) 推荐(0)

机器学习与人工智能 —— 现有的机器学习范式是否可以实现真正的像人一样的“智能”

摘要：注意，本篇是一如既往的胡思乱想篇。现在的AI发展速度很快，尤其是近几年大语言模型的表现尤为突出，由ChatGPT和DeepSeek等为代表的大语言模型已经在对话系统上通过图灵测试了，可以说使用统计学习方法的机器学习范式已经成为了人工智能领域最为强大的研究方向了，但是，虽然现在的AI发展如此强大，但阅读全文

posted @ 2025-03-19 23:34 Angry_Panda 阅读(46) 评论(0) 推荐(0)

机器学习 —— 大语言模型背景下的“泛化”概念的逐渐模糊化 —— 任务间泛化概念已经模糊

摘要：在机器学习领域，泛化是一个很重要的概念，但是在大语言模型背景该概念却变得界限模糊起来了。特别要说明，本文说的“泛化”概念的模糊化是特指大语言模型的背景下的情况。在大语言模型之前，在机器学习中是需要根据数据集来区分任务的，也就是说都是图像识别任务或对话系统任务的话也是需要区分出有的视觉任务是区分猫阅读全文

posted @ 2025-03-19 13:59 Angry_Panda 阅读(99) 评论(0) 推荐(0)

数值优化 —— 信赖域算法（DogLeg算法）（python实现）

摘要：相关：数值优化 —— 信赖域算法 https://zhuanlan.zhihu.com/p/364296114 根据https://zhuanlan.zhihu.com/p/364296114可以知道DogLeg算法的置信域算法的步骤如下：不过，需要注意的是这个算法步骤可能存在描述的错误，原因h 阅读全文

posted @ 2025-03-19 13:27 Angry_Panda 阅读(286) 评论(0) 推荐(0)

数值优化 —— 信赖域算法

摘要：数值优化 —— 信赖域算法相关：图片来自： https://huaweicloud.csdn.net/638084a2dacf622b8df89657.html 信赖域算法之 The Dogleg Method Question Give: f(x,y)=100(y-x2)2+(1-x)^2 阅读全文

posted @ 2025-03-19 09:41 Angry_Panda 阅读(127) 评论(0) 推荐(0)

数值优化 —— 二次近似模型

摘要：数值优化 —— 二次近似模型数值优化 DeepSeek 思考过程：嗯，用户问“二次近似模型是什么”，需要详细解释这个概念。首先，我需要确定用户可能的背景。他们可能在学习数值优化，或者在研究机器学习中的优化算法时遇到了这个概念。二次近似模型在优化算法中很常见，比如牛顿法、置信域方法等都会用到。用户可阅读全文

posted @ 2025-03-18 23:29 Angry_Panda 阅读(153) 评论(0) 推荐(0)

数值优化中 —— 置信域算法

摘要：DeepSeek 思考：好的，我现在要详细理解数值优化中的置信域算法。首先，我需要明确什么是置信域算法，它和其他优化方法（比如梯度下降、牛顿法、L-BFGS）有什么不同。可能用户之前已经了解了L-BFGS，现在想扩展到置信域算法，所以需要对比它们的异同。首先，我应该回忆一下优化问题的基本框架。优阅读全文

posted @ 2025-03-18 19:07 Angry_Panda 阅读(149) 评论(0) 推荐(0)

数值优化 —— 线搜索 —— scipy.optimize.line_search

摘要：scipy.optimize.line_search DeepSeek 思考：好的，用户让我解释scipy.optimize里的line_search函数，包括它的输入输出，并给出例子。我需要先回忆一下这个函数的具体用法。之前可能用过或者学过这方面的知识，但可能需要查证一下确保准确性。首先，用户阅读全文

posted @ 2025-03-18 15:24 Angry_Panda 阅读(97) 评论(0) 推荐(0)

数值优化——线搜索——数值优化算法中线搜索搜索步长是什么意思？？？

摘要：数值优化——线搜索 DeepSeek 思考：嗯，用户问的是数值优化算法中线搜索的搜索步长是什么意思。首先，我需要回忆一下线搜索的基本概念。线搜索是优化算法中的一个步骤，用于确定在给定方向上的合适步长，使得目标函数能够有效地减少。用户可能对数值优化有一定的了解，但可能还不太清楚线搜索的具体机制。他阅读全文

posted @ 2025-03-18 13:36 Angry_Panda 阅读(102) 评论(0) 推荐(0)

数值优化 —— 拟牛顿法 L-BFGS

摘要：主要来源和参考： https://felix.blog.csdn.net/article/details/46389869 L-BFGS算法中的方向的计算方法: （这个伪代码形式的算法描述并不是很OK，不建议使用，建议跳过）关键公式： \(s_k = x_{k+1} - x_k\) \(y_k = 阅读全文

posted @ 2025-03-17 16:16 Angry_Panda 阅读(702) 评论(0) 推荐(0)

数值优化 —— 拟牛顿法DFP

摘要：本文主要参考： https://blog.csdn.net/google19890102/article/details/45848439 本文不介绍DFP算法的具体解释和推导，有进一步想了解的请跳转到本文开头给出的参考地址。给出DFP算法的伪代码形式的算法描述：其中，校正公式为：而在实际编写阅读全文

posted @ 2025-03-17 13:56 Angry_Panda 阅读(41) 评论(0) 推荐(0)

人形机器人学会连续后空翻统共需几步？

摘要：相关： https://baijiahao.baidu.com/s?id=1826568464200835291&wfr=spider&for=pc 三个礼拜学会后空翻机器人如何做到？虽然后空翻的动作难度大，但是记者在采访中了解到，机器人团队仅用了三周，就让机器人学会了这个特殊技能。首先，团队阅读全文

posted @ 2025-03-16 11:11 Angry_Panda 阅读(91) 评论(0) 推荐(0)

数值优化 —— 拟牛顿法DFP什么时候进行校正操作？？？

摘要：问题：数值优化算法DFP什么时候进行校正 DeepSeek 思考：嗯，我现在在学习数值优化算法，特别是DFP算法。老师讲了DFP是一种拟牛顿法，用来解决无约束优化问题。但是我对DFP什么时候进行校正还不太清楚，需要仔细想一想。首先，DFP算法，全称是Davidon-Fletcher-Powel 阅读全文

posted @ 2025-03-16 10:41 Angry_Panda 阅读(75) 评论(0) 推荐(0)

数值优化 —— L-BFGS算法介绍（入门篇）

摘要：地址，见： https://juejin.cn/post/6844903737505349640 这个文章转载起来太麻烦，于是就只记录链接地址，如有需要直接点击上面链接地址即可。该文章在牛顿法和拟牛顿法的介绍上还是较好理解的，虽然贴图不是很清晰，但是再后面的BFGS的推理上就太过简单了，完全无法理阅读全文

posted @ 2025-03-15 18:53 Angry_Panda 阅读(153) 评论(0) 推荐(0)

数值优化 —— 牛顿法为啥要求Hession矩阵为正定矩阵？？？

摘要：数值优化中的牛顿法为啥要求Hession矩阵为正定矩阵 DeepSeek 思考过程：嗯，我现在要理解为什么数值优化中的牛顿法需要Hessian矩阵是正定矩阵。这个问题我之前学过一点，但可能有些细节还不太清楚，得仔细想想。首先，牛顿法是一种迭代优化方法，用来寻找函数的极小值或者极大值。在优化问题中阅读全文

posted @ 2025-03-15 17:44 Angry_Panda 阅读(202) 评论(0) 推荐(0)

【转载】香港《大公报》：伟大的企业家都是铮铮爱国者

摘要：原地址： https://baijiahao.baidu.com/s?id=1826637978599201363 3月15日，香港《大公报》发布题为“伟大的企业家都是铮铮爱国者”的时评，就李嘉诚旗下香港长江和记实业有限公司拟将包括巴拿马运河两大港口在内的43个港口出售给美国财团的消息提出5个问题。阅读全文

posted @ 2025-03-15 14:34 Angry_Panda 阅读(84) 评论(0) 推荐(0)

数值优化算法 —— 牛顿法中的邻近区域指什么？

摘要：DeepSeek生成：嗯，我现在要理解数值优化算法中的牛顿法里的“邻近区域”指的是什么。首先，我得回忆一下牛顿法的基本概念和步骤。牛顿法是一种用于寻找函数的根或者用于优化的迭代方法，这里应该是指用于优化的牛顿法，也就是寻找函数的极值点。牛顿法在优化中的应用，通常是通过迭代来逼近函数的极值点，比如阅读全文

posted @ 2025-03-15 13:36 Angry_Panda 阅读(48) 评论(0) 推荐(0)

向上管理能力 ——如何在高校职场中立于不败之地

摘要：向上管理的概念是管理学家杰克·韦尔奇的助手罗塞娜·博得斯基提出来的。管理需要资源，资源的分配权力在上级领导手上，因此，当职场人士需要获得工作的自由资源时，需要对上级领导进行“管理”，实际上是与上级领导进行有效的“沟通”。向上管理：概念与实践‌ 1 ‌向上管理‌（Managing Up）是一种通过有阅读全文

posted @ 2025-03-15 11:41 Angry_Panda 阅读(242) 评论(0) 推荐(0)

摘要：![image](https://img2024.cnblogs.com/blog/1088037/202503/1088037-20250314161948114-1457717784.png) ![image](https://img2024.cnblogs.com/blog/1088037/202503/1088037-20250314162155523-595043362.png) ![i 阅读全文

posted @ 2025-03-14 16:23 Angry_Panda 阅读(30) 评论(0) 推荐(0)

种地不挣钱，化肥、种子太贵？

摘要：又是一个闲聊，农民种地，种子很多都是外国的，可以说我们国家的农业对外国的种子集团是极为依赖的，但是这个事情又好像不是太重要，因为重来也不见什么人来提，国家也没有什么相关的政策，不过就像现在的中美贸易战，美国拿不卖中国芯片来卡中国脖子，那么有没有可能有一天欧洲和中国闹掰，然后欧洲拿种子来威胁中国呢，要阅读全文

posted @ 2025-03-11 15:58 Angry_Panda 阅读(14) 评论(0) 推荐(0)

葡萄酒可以储存几年 —— 82年的拉菲不会过期吗？

摘要：怎么说呢，肯定是有一部分是过期了的。可以说酒这种东西，尤其是酒精度超过10度后的，其实国家规定是不标注保质期的，那么这是不是说明就没有保质期呢，其实并不是，因为只要是东西就一定有保质期，除非不是东西。之所以高度酒不标注保质期是因为无法设定一个统一的保质期，因为高度酒的保质期往往较长，可能是10年阅读全文

posted @ 2025-03-10 10:00 Angry_Panda 阅读(476) 评论(0) 推荐(0)

《哪吒2》讲的是“拼搏奋斗的精神”or “有个好爹才能有个好师傅，有个好师傅才能啥事都好办”

摘要：《哪吒2》讲的是“拼搏奋斗的精神”or “有个好爹才能有个好师傅，有个好师傅才能啥事都好办”《哪吒2》讲的是“拼搏奋斗的精神”or “有个好爹才能有个好师傅，有个好师傅才能啥事都好办” 地址： http://news.enorth.com.cn/system/2025/03/09/058162226 阅读全文

posted @ 2025-03-10 09:00 Angry_Panda 阅读(47) 评论(0) 推荐(0)

如何看待国产的原生AI编程IDE —— Trae （这就是一个在vscode的基础上套壳的东西，而且还不咋好用）

摘要：本文为吐槽和体验分享blog。事情是这样的，在cnblogs的推荐页面看到了这个推荐广告：抱着试一试的态度进去看了看，看到上面的国产字样，再加上“首个”然后又“AI”又是“原生IDE”，感觉难道是抖音要雄起，字节跳动这回要牛逼一次了，于是赶紧下载下来安装试试。下载后发现这个界面是这样的：感觉阅读全文

posted @ 2025-03-10 08:01 Angry_Panda 阅读(1655) 评论(0) 推荐(0)

伟大的共和国功勋，六大奖章的获得者程开甲院士

摘要：中国科学院院士（在世800人） “两弹一星”功勋奖章获得者（在世5人）国家最高科技奖获得者（在世27人）（1985年获得） “八一勋章”获得者（首批10人） “改革先锋”称号（全中国100人） “人民科学家”国家荣誉称号（首批全国5人）中国六大荣誉，活着的就这么多人，拿一个就不简单，全中国目阅读全文

posted @ 2025-03-08 09:36 Angry_Panda 阅读(103) 评论(0) 推荐(0)

写博士论文前的思考：100页的英文文献翻译成中文大概有多少页？（从信息论的角度来看，中文翻译成英文后篇幅会变多还是变少）

摘要：想了一个问题： 100页的英文文献翻译成中文大概有多少页100页的英文文献翻译成中文大概有多少页相关： https://www.zhihu.com/question/272439973/answer/373605550 ChatGPT回答：个人的判断：上面的回答基本上都是中文翻译成英文后字数会阅读全文

posted @ 2025-03-06 09:15 Angry_Panda 阅读(911) 评论(0) 推荐(0)

创业APP“小黄鸡词典”是被新浪抄袭了吗

摘要：相关： https://zhuanlan.zhihu.com/p/602393356 PS：不作恶是互联网大厂必须遵守的道德下限。阅读全文

posted @ 2025-03-05 22:51 Angry_Panda 阅读(110) 评论(0) 推荐(0)

python性能优化：numpy的手动索引比numpy的范围索引要快近千倍速度

摘要：最近看代码看到这么一个说法： # numpy doesn't special case range indexing, so it's very slow. # Slice manually instead, which is faster than any other method. # NumP 阅读全文

posted @ 2025-03-03 16:45 Angry_Panda 阅读(64) 评论(0) 推荐(0)

python：matplotlib绘图 —— 绘制双Y轴图表 —— 双Y轴的坐标轴不同颜色

摘要：关键代码： ax1.tick_params(axis='y', labelcolor='b') ax2 = ax1.twinx() ax2.tick_params(axis='y', labelcolor='r') 实际表现：效果图：全部代码：点击查看代码 import numpy as np 阅读全文

posted @ 2025-03-02 14:14 Angry_Panda 阅读(100) 评论(0) 推荐(0)

在Windows系统中matplotlib绘图时中文出现乱码

摘要：解决方法：加入代码设置中文字体显示（如果系统支持） plt.rcParams['font.sans-serif'] = ['SimHei'] # Windows系统 plt.rcParams['axes.unicode_minus'] = False # 正确显示负号原始代码：点击查看代码阅读全文

posted @ 2025-03-02 14:04 Angry_Panda 阅读(111) 评论(0) 推荐(0)

人形机器人：使用人体姿态识别的方法来训练人形机器人

摘要：使用模仿学习来训练人形机器人。如何获取人类的演示数据呢？直接方式。通过VR或AR的虚拟现实的技术进行远程控制机器人，这样可以获得实时的人类的数据，而且还是人类控制机器人的数据。间接方式。通过人类姿态识别的方式，该种方式效果肯定不如上一种的好，不过其优势就是方便，便宜，不需要复杂且昂贵的机器人远阅读全文

posted @ 2025-03-01 20:47 Angry_Panda 阅读(80) 评论(0) 推荐(0)

代码实践：面向分布式强化学习的经验回放框架（使用例子Demo）——Reverb: A Framework for Experience Replay

摘要：相关：面向分布式强化学习的经验回放框架（使用例子Demo）——Reverb: A Framework for Experience Replay 阅读全文

posted @ 2025-03-01 19:40 Angry_Panda 阅读(78) 评论(0) 推荐(0)

深度强化学习中探索《蒙特祖马的复仇》与《陷阱》的突破：Go-Explore 算法

摘要：原地址： https://www.uber.com/blog/go-explore/ 在深度强化学习（RL）领域，攻克 Atari 游戏《蒙特苏马的复仇》和《陷阱》一直是一项重大挑战。这些游戏代表了一大类具有挑战性的现实问题，被称为“难以探索的问题”，在这些问题中，智能体必须在极其稀疏或具有欺骗性的阅读全文

posted @ 2025-03-01 19:39 Angry_Panda 阅读(101) 评论(0) 推荐(0)

带和不带 Ornstein-Uhlenbeck 过程的深度确定性策略梯度（DDPG）——《Deep Deterministic Policy Gradient (DDPG) with and without Ornstein-Uhlenbeck Process》

摘要：相关： https://soeren-kirchner.medium.com/deep-deterministic-policy-gradient-ddpg-with-and-without-ornstein-uhlenbeck-process-e6d272adfc3 Replacing the O 阅读全文

posted @ 2025-03-01 14:52 Angry_Panda 阅读(82) 评论(0) 推荐(0)

强化学习说法DDPG中的Ornstein-Uhlenbeck随机过程 —— How does the Ornstein-Uhlenbeck process work, and how it is used in DDPG?

摘要：相关： https://ai.stackexchange.com/questions/23180/how-does-the-ornstein-uhlenbeck-process-work-and-how-it-is-used-in-ddpg It should be noted that more 阅读全文

posted @ 2025-03-01 13:56 Angry_Panda 阅读(35) 评论(0) 推荐(0)

Ornstein-Uhlenbeck过程维基百科 —— 翻译

摘要：原地址： https://en.wikipedia.org/wiki/Ornstein–Uhlenbeck_process Ornstein-Uhlenbeck过程在数学中，Ornstein-Uhlenbeck过程（以Leonard Ornstein和George Eugene Uhlenbeck 阅读全文

posted @ 2025-03-01 12:58 Angry_Panda 阅读(131) 评论(0) 推荐(0)

03 2025 档案

公告

导航