博客园 - SilentSamsara
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=167533
2024-03-24T15:07:13Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
feed.cnblogs.com
https://www.cnblogs.com/SilentSamsara/p/17003574.html
红米AC2100:钛星人固件,用ttl刷回breed - SilentSamsara
去年~~手贱~~不小心把RM2100刷成钛星人固件,想要刷回来找不到方法,趁着这段时间回家又折腾了一下 准备 **工具:**杜邦线、电烙铁(非必须,有金属探针也行)、锡线、TTL转接板(个人使用的是CH340G模块)、网线 **软件:**串口调试助手(微软商店搜得到,可以下载)、Tftpd64、TT
2023-01-08T14:01:00Z
2023-01-08T14:01:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】去年~~手贱~~不小心把RM2100刷成钛星人固件,想要刷回来找不到方法,趁着这段时间回家又折腾了一下 准备 **工具:**杜邦线、电烙铁(非必须,有金属探针也行)、锡线、TTL转接板(个人使用的是CH340G模块)、网线 **软件:**串口调试助手(微软商店搜得到,可以下载)、Tftpd64、TT <a href="https://www.cnblogs.com/SilentSamsara/p/17003574.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/16918983.html
阅读笔记-2022.11.23 - SilentSamsara
论文:DEEP BATCH ACTIVE LEARNING BY DIVERSE, UNCERTAIN GRADIENT LOWER BOUNDS 目录NOTATION AND SETTINGALGORITHMThe gradient embeddingThe sampling stepExampl
2022-11-23T09:02:00Z
2022-11-23T09:02:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】论文:DEEP BATCH ACTIVE LEARNING BY DIVERSE, UNCERTAIN GRADIENT LOWER BOUNDS 目录NOTATION AND SETTINGALGORITHMThe gradient embeddingThe sampling stepExampl <a href="https://www.cnblogs.com/SilentSamsara/p/16918983.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/16901041.html
阅读笔记-2022.11.17 - SilentSamsara
论文:Active Learning for Open-set Annotation 目录The OSA Problem SettingAlgorithm DetailDetector trainingActive samplingClassifier training 现有的主动学习研究通常在封闭
2022-11-17T13:25:00Z
2022-11-17T13:25:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】论文:Active Learning for Open-set Annotation 目录The OSA Problem SettingAlgorithm DetailDetector trainingActive samplingClassifier training 现有的主动学习研究通常在封闭 <a href="https://www.cnblogs.com/SilentSamsara/p/16901041.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/16893696.html
阅读笔记-2022.11.15 - SilentSamsara
论文:Active Learning by Feature Mixing 目录问题定义(Problem Definition)特征混合 (Feature Mixing)优化插值参数 \(\pmb \alpha\)(Optimising the Interpolation Parameter \(\p
2022-11-15T11:58:00Z
2022-11-15T11:58:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】论文:Active Learning by Feature Mixing 目录问题定义(Problem Definition)特征混合 (Feature Mixing)优化插值参数 \(\pmb \alpha\)(Optimising the Interpolation Parameter \(\p <a href="https://www.cnblogs.com/SilentSamsara/p/16893696.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/16314185.html
笔记-2022.05.26 - SilentSamsara
推荐的架构包括一个深度特征提取器(绿色)和一个深度标签预测器(蓝色),它们共同构成一个标准的前馈架构。无监督的领域适应是通过添加一个领域分类器(红色)来实现的,该分类器通过一个梯度反转层与特征提取器相连,在基于反向传播的训练过程中,梯度乘以某个负常数。否则,训练将以标准方式进行,并使标签预测损失(对
2022-05-26T09:12:00Z
2022-05-26T09:12:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】推荐的架构包括一个深度特征提取器(绿色)和一个深度标签预测器(蓝色),它们共同构成一个标准的前馈架构。无监督的领域适应是通过添加一个领域分类器(红色)来实现的,该分类器通过一个梯度反转层与特征提取器相连,在基于反向传播的训练过程中,梯度乘以某个负常数。否则,训练将以标准方式进行,并使标签预测损失(对 <a href="https://www.cnblogs.com/SilentSamsara/p/16314185.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15952336.html
学习笔记-2022.03.01 - SilentSamsara
学习笔记-2022.03.01 内容:阅读论文分享:HyperDQN: A Randomized Exploration for Deep RL Introduction 强化学习的一个难题是与环境交互时的样本效率 好的探索策略可以减小样本复杂度。一个好的探索策略要不断尝试那些未知的/不确定的动作;
2022-03-01T12:24:00Z
2022-03-01T12:24:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习笔记-2022.03.01 内容:阅读论文分享:HyperDQN: A Randomized Exploration for Deep RL Introduction 强化学习的一个难题是与环境交互时的样本效率 好的探索策略可以减小样本复杂度。一个好的探索策略要不断尝试那些未知的/不确定的动作; <a href="https://www.cnblogs.com/SilentSamsara/p/15952336.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15526408.html
学习日志-2021.11.08 - SilentSamsara
学习日志-2021.11.08 其他Q-Learning SA-Q-learning 为了平衡Q-learning的探索与利用,基于Metropolis准则提出的算法 算法描述 初始化Q表 对每一轮次(episode): 随机选择或初始化一个状态 \(s_t\) 对于每一步(step): 从动作空间
2021-11-08T13:55:00Z
2021-11-08T13:55:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.11.08 其他Q-Learning SA-Q-learning 为了平衡Q-learning的探索与利用,基于Metropolis准则提出的算法 算法描述 初始化Q表 对每一轮次(episode): 随机选择或初始化一个状态 \(s_t\) 对于每一步(step): 从动作空间 <a href="https://www.cnblogs.com/SilentSamsara/p/15526408.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15518595.html
论文阅读-2021.11.06 - SilentSamsara
论文阅读-2021.11.06 Backward Q-learning: The combination of Sarsa algorithm and Q-learning 自适应Q-learning 算法描述 初始化Q表,设置 \(TH_P、TH_N、C、β和k\) 循环(轮次episode):
2021-11-06T14:01:00Z
2021-11-06T14:01:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】论文阅读-2021.11.06 Backward Q-learning: The combination of Sarsa algorithm and Q-learning 自适应Q-learning 算法描述 初始化Q表,设置 \(TH_P、TH_N、C、β和k\) 循环(轮次episode): <a href="https://www.cnblogs.com/SilentSamsara/p/15518595.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15458238.html
学习日志-2021.10.25 - SilentSamsara
学习日志-2021.10.25 由于昨天仿真实验没有观察到曲线上升的过程,在昨晚睡前将博弈轮数设置为50000次,困境强度 \((DS)\) 为0.02,Q-Learning智能体占比约为0.1 \((\frac{1018}{10000})\) ,截止到第二天中午十二点,已经完成约25000轮次,重
2021-10-25T05:58:00Z
2021-10-25T05:58:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.10.25 由于昨天仿真实验没有观察到曲线上升的过程,在昨晚睡前将博弈轮数设置为50000次,困境强度 \((DS)\) 为0.02,Q-Learning智能体占比约为0.1 \((\frac{1018}{10000})\) ,截止到第二天中午十二点,已经完成约25000轮次,重 <a href="https://www.cnblogs.com/SilentSamsara/p/15458238.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15455679.html
学习日志-2021.10.24 - SilentSamsara
学习日志-2021.10.24 硕士论文第二部分复现 复杂网络上的合作行为演化研究 ——基于 Q-learning 算法 源码地址:RL_for_Gaming_to_choose_action(Q-Learning) 在相同智能体比例,不同困境强度下的演化: 合作率演化图: 从左至右困境强度 $(D
2021-10-24T13:02:00Z
2021-10-24T13:02:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.10.24 硕士论文第二部分复现 复杂网络上的合作行为演化研究 ——基于 Q-learning 算法 源码地址:RL_for_Gaming_to_choose_action(Q-Learning) 在相同智能体比例,不同困境强度下的演化: 合作率演化图: 从左至右困境强度 $(D <a href="https://www.cnblogs.com/SilentSamsara/p/15455679.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15423027.html
学习日志-2021.10.18 - SilentSamsara
学习日志-2021.10.18 硕士论文复现--选择学习对象 论文内容是在 200×200 的边界循环网络下,实际情况下会占用大量的计算资源,导致计算时间较长,在复现时为减少时间消耗,改为 100×100 的边界循环网络。 源码地址 复现目标 使用Q-Learning算法,探究学习对象的选择对网络演
2021-10-18T15:58:00Z
2021-10-18T15:58:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.10.18 硕士论文复现--选择学习对象 论文内容是在 200×200 的边界循环网络下,实际情况下会占用大量的计算资源,导致计算时间较长,在复现时为减少时间消耗,改为 100×100 的边界循环网络。 源码地址 复现目标 使用Q-Learning算法,探究学习对象的选择对网络演 <a href="https://www.cnblogs.com/SilentSamsara/p/15423027.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15404708.html
学习日志-2021.10.13 - SilentSamsara
学习日志-2021.10.13 记录一下项目 地址 参考之前运行的项目,将算法运用到这个游戏中。 项目描述 红色代表小鸟 黑色方块组成柱子 状态表示:以柱子缺口底部右侧的黑色方块为坐标原点,与当前小鸟坐标的差值 \((Δx,Δy)\) 表示一个状态。 行为 飞一下:小鸟向上移动一格 什么也不做:往下
2021-10-13T15:06:00Z
2021-10-13T15:06:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.10.13 记录一下项目 地址 参考之前运行的项目,将算法运用到这个游戏中。 项目描述 红色代表小鸟 黑色方块组成柱子 状态表示:以柱子缺口底部右侧的黑色方块为坐标原点,与当前小鸟坐标的差值 \((Δx,Δy)\) 表示一个状态。 行为 飞一下:小鸟向上移动一格 什么也不做:往下 <a href="https://www.cnblogs.com/SilentSamsara/p/15404708.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15395340.html
学习日志-2021.10.11 - SilentSamsara
学习日志-2021.10.11 复习一下机器学习书本第四章内容 决策树 基本算法 这是一个递归的过程,有三种情况会导致递归返回: 当前节点包含的样本全属于同一类别,无需划分 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分 当前结点包含的样本集合为空,不能划分 输入:训练集 \(D = \
2021-10-11T14:36:00Z
2021-10-11T14:36:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.10.11 复习一下机器学习书本第四章内容 决策树 基本算法 这是一个递归的过程,有三种情况会导致递归返回: 当前节点包含的样本全属于同一类别,无需划分 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分 当前结点包含的样本集合为空,不能划分 输入:训练集 \(D = \ <a href="https://www.cnblogs.com/SilentSamsara/p/15395340.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15387986.html
学习日志-2021.10.09 - SilentSamsara
学习日志-2021.10.09 今日主要内容: 成功运行两个sarsa算法相关的项目(用于路径规划): 项目地址 每轮迭代:Agent走到障碍物上或到达目标。 RL_Sarsa_E1(小地图): 迭代1000轮后,自己寻找路径的结果 RL_Sarsa_E2(大地图): 跑了快一个小时。。。。(迭代6
2021-10-09T14:17:00Z
2021-10-09T14:17:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.10.09 今日主要内容: 成功运行两个sarsa算法相关的项目(用于路径规划): 项目地址 每轮迭代:Agent走到障碍物上或到达目标。 RL_Sarsa_E1(小地图): 迭代1000轮后,自己寻找路径的结果 RL_Sarsa_E2(大地图): 跑了快一个小时。。。。(迭代6 <a href="https://www.cnblogs.com/SilentSamsara/p/15387986.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15367311.html
学习日志-2021.10.04 - SilentSamsara
学习日志-2021.10.04 博弈论与多智能体强化学习(续) 文献阅读: 学习自动机强化方案 学习自动机是相对简单的策略迭代器,在动作集a上保持向量动作概率p。这些概率根据从环境接收到的反馈进行更新。 这种方案最初的研究主要集中在n-臂赌博机(n-armed bandit)环境中的单个自动机。 最
2021-10-04T13:43:00Z
2021-10-04T13:43:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.10.04 博弈论与多智能体强化学习(续) 文献阅读: 学习自动机强化方案 学习自动机是相对简单的策略迭代器,在动作集a上保持向量动作概率p。这些概率根据从环境接收到的反馈进行更新。 这种方案最初的研究主要集中在n-臂赌博机(n-armed bandit)环境中的单个自动机。 最 <a href="https://www.cnblogs.com/SilentSamsara/p/15367311.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15362817.html
学习日志-2021.10.02 - SilentSamsara
学习日志-2021.10.02 文献阅读: 博弈论与多智能体强化学习 重点讨论强化学习技术在多智能体系统中的应用。 描述了一个基于对博弈论的经济研究的基本学习框架,并说明了在这种系统中出现的额外复杂性,以及分析学习结果的工具。 Introduction 多智能体博弈标准模型 系统是分散的。因为需要满
2021-10-02T13:53:00Z
2021-10-02T13:53:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.10.02 文献阅读: 博弈论与多智能体强化学习 重点讨论强化学习技术在多智能体系统中的应用。 描述了一个基于对博弈论的经济研究的基本学习框架,并说明了在这种系统中出现的额外复杂性,以及分析学习结果的工具。 Introduction 多智能体博弈标准模型 系统是分散的。因为需要满 <a href="https://www.cnblogs.com/SilentSamsara/p/15362817.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15345748.html
学习日志-2021.09.27 - SilentSamsara
学习日志-2021.09.27 论文阅读: 复杂网络上的合作行为演化研究 ——基于 Q-learning 算法 引言 研究背景 演化博弈论:理解合作行为如何在自私个体当中涌现和维持。 博弈个体是有限理性的。不能通过一次选择就可以实现策略均衡,而是需要不断地进行策略学习及调整。 在符合条件的困境模型背
2021-09-27T14:52:00Z
2021-09-27T14:52:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.09.27 论文阅读: 复杂网络上的合作行为演化研究 ——基于 Q-learning 算法 引言 研究背景 演化博弈论:理解合作行为如何在自私个体当中涌现和维持。 博弈个体是有限理性的。不能通过一次选择就可以实现策略均衡,而是需要不断地进行策略学习及调整。 在符合条件的困境模型背 <a href="https://www.cnblogs.com/SilentSamsara/p/15345748.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15336261.html
学习日志-2021.09.25 - SilentSamsara
学习日志-2021.09.25 今日进展(笔记) Q-learning(基于值的算法) 使用了时间差分法(融合了蒙特卡洛和动态规划)能够进行off-policy的学习 算法描述: 初始化 Q = {} while Q 未收敛: 初始化状态S,开始新一轮的游戏 while S!=结束: 使用策略$π$
2021-09-25T18:24:00Z
2021-09-25T18:24:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.09.25 今日进展(笔记) Q-learning(基于值的算法) 使用了时间差分法(融合了蒙特卡洛和动态规划)能够进行off-policy的学习 算法描述: 初始化 Q = {} while Q 未收敛: 初始化状态S,开始新一轮的游戏 while S!=结束: 使用策略$π$ <a href="https://www.cnblogs.com/SilentSamsara/p/15336261.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15313224.html
学习日志-2021.09.19 - SilentSamsara
学习日志-2021.09.19 今日进展 查看论文第一章内容 了解复杂网络的一些基本概念、生成方法、常用的复杂网络模型等。 了解博弈论基本概念和常用模型。 通过查询了解纳什均衡(指网络中在其他结点不改变策略的情况下,任何一个结点改变自己的决策后将不会获得更多的收益)。 了解复制子方程。 学习西瓜书内
2021-09-19T15:43:00Z
2021-09-19T15:43:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.09.19 今日进展 查看论文第一章内容 了解复杂网络的一些基本概念、生成方法、常用的复杂网络模型等。 了解博弈论基本概念和常用模型。 通过查询了解纳什均衡(指网络中在其他结点不改变策略的情况下,任何一个结点改变自己的决策后将不会获得更多的收益)。 了解复制子方程。 学习西瓜书内 <a href="https://www.cnblogs.com/SilentSamsara/p/15313224.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/SilentSamsara/p/15310477.html
学习日志-2021.09.18 - SilentSamsara
学习日志-2021.09.18 今日工作 阅读论文 History loyalty-based reward promotes cooperation in the spatial public goods game。 文章主要讲述基于历史忠诚奖励机制的公共物品博弈。 文章中使用的网络是方格网络(左
2021-09-18T15:05:00Z
2021-09-18T15:05:00Z
SilentSamsara
https://www.cnblogs.com/SilentSamsara/
【摘要】学习日志-2021.09.18 今日工作 阅读论文 History loyalty-based reward promotes cooperation in the spatial public goods game。 文章主要讲述基于历史忠诚奖励机制的公共物品博弈。 文章中使用的网络是方格网络(左 <a href="https://www.cnblogs.com/SilentSamsara/p/15310477.html" target="_blank">阅读全文</a>