摘要:        
因为自己实在是太好忘了💀 所以在博客存档方便查找    
阅读全文
 
 
        
        posted @ 2024-01-18 19:47
MoonOut
阅读(62)
推荐(0)
        
 
		
    
        
        
摘要:        
为了帮助你更好地理解 Nested Partition 算法,我为你生成了一首诗,用比喻的方式描述了这种算法的过程。希望这对你有所帮助。😊    
阅读全文
 
 
        
        posted @ 2024-01-13 11:06
MoonOut
阅读(141)
推荐(0)
        
 
		
    
        
        
摘要:        
如果没有质量更好的第二季,宁愿它就这样停在第一季;已经很好了,已经很完美了。    
阅读全文
 
 
        
        posted @ 2023-12-17 16:15
MoonOut
阅读(91)
推荐(0)
        
            
        
        
摘要:        
critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。    
阅读全文
 
 
        
        posted @ 2023-12-17 15:37
MoonOut
阅读(209)
推荐(0)
        
            
        
        
摘要:        
Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。    
阅读全文
 
 
        
        posted @ 2023-12-17 15:28
MoonOut
阅读(135)
推荐(0)
        
 
		
    
        
        
摘要:        
贡献:提出一种生成非理性(模拟人类)preference 的方法,使用多样化的 preference,评测 PBRL 各环节算法设计(select informative queries、feedback schedule)的效果。    
阅读全文
 
 
        
        posted @ 2023-11-30 21:21
MoonOut
阅读(249)
推荐(0)
        
 
		
    
        
        
        
        posted @ 2023-11-28 15:34
MoonOut
阅读(48)
推荐(0)
        
 
		
    
        
        
摘要:        
① 使用 VAE 建模 offline dataset 的 π(a|s),② 添加一个可以学习的 action 扰动 ξ,③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。    
阅读全文
 
 
        
        posted @ 2023-11-27 21:29
MoonOut
阅读(364)
推荐(0)
        
            
        
        
摘要:        
一篇知乎 TRPO 博客,感觉 idea 讲的很清楚,特来搬运。    
阅读全文
 
 
        
        posted @ 2023-11-27 15:47
MoonOut
阅读(57)
推荐(0)
        
 
		
    
        
        
摘要:        
① 通过 (s,a,r,s',a') 更新 Q function,② 通过 Q 和 V 交替迭代,避免过拟合 s'~p(s'|a) 的随机好 s',误以为 a 是好 action,③ 通过 AWR 从 advantage 提取 policy。    
阅读全文
 
 
        
        posted @ 2023-11-25 20:12
MoonOut
阅读(925)
推荐(0)
        
 
		
    
        
        
摘要:        
① 在 actor 最大化 Q advantage 时,纳入一个 behavior cloning loss; ② observation 归一化;③ 让 Q advantage 跟 behavior cloning 的 loss 可比。    
阅读全文
 
 
        
        posted @ 2023-11-19 17:02
MoonOut
阅读(1031)
推荐(0)
        
 
		
    
        
        
摘要:        
感觉讲的非常好,谢谢善良的博主 😊🙏🏻    
阅读全文
 
 
        
        posted @ 2023-11-16 16:36
MoonOut
阅读(36)
推荐(0)
        
 
		
    
        
        
摘要:        
仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。    
阅读全文
 
 
        
        posted @ 2023-11-13 20:40
MoonOut
阅读(551)
推荐(0)
        
            
        
        
摘要:        
发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。    
阅读全文
 
 
        
        posted @ 2023-11-13 18:11
MoonOut
阅读(694)
推荐(0)
        
 
		
    
        
        
摘要:        
① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label;② 将 labeled segment pair 进行时序剪裁,得到更多数据增强的 labeled pair。    
阅读全文
 
 
        
        posted @ 2023-11-11 20:16
MoonOut
阅读(423)
推荐(1)
        
            
        
        
摘要:        
写伪逆矩阵计算代码,是专业课作业 2333,挑了两个好实现的算法写一下。    
阅读全文
 
 
        
        posted @ 2023-11-11 12:01
MoonOut
阅读(746)
推荐(0)
        
 
		
    
        
        
摘要:        
reward model 对某 (s,a) 的不确定性,由一系列 ensemble reward models 的输出结果方差的度量,直接乘一个超参数,作为 intrinsic reward 的一部分。    
阅读全文
 
 
        
        posted @ 2023-11-10 17:43
MoonOut
阅读(572)
推荐(3)
        
 
		
    
        
        
摘要:        
① 使用熵 intrinsic reward 的 agent pre-training,② 选择尽可能 informative 的 queries 去获取 preference,③ 使用更新后的 reward model 对 replay buffer 进行 relabel。    
阅读全文
 
 
        
        posted @ 2023-11-09 20:40
MoonOut
阅读(591)
推荐(0)
        
 
		
    
        
        
摘要:        
把 OOD 的 Q 函数值拉低,ID 的 Q 函数值拉高,因此倾向于选择原来数据集里有的 ID 的 action。    
阅读全文
 
 
        
        posted @ 2023-11-07 15:12
MoonOut
阅读(1186)
推荐(3)
        
            
        
        
摘要:        
sup inf ≤ inf sup,证明关键: inf_w f(w,z) 是 f(w0,z) 逐点下界,对于任意 w0。    
阅读全文
 
 
        
        posted @ 2023-11-07 10:51
MoonOut
阅读(317)
推荐(0)
        
 
		
    
        
        
摘要:        
满秩分解的计算方法,居然意外的简单。    
阅读全文
 
 
        
        posted @ 2023-11-04 17:07
MoonOut
阅读(480)
推荐(0)
        
 
		
    
        
        
摘要:        
1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。    
阅读全文
 
 
        
        posted @ 2023-11-02 10:44
MoonOut
阅读(554)
推荐(0)
        
 
		
    
        
        
摘要:        
Cholesky 分解是 LU 分解(三角分解)的特殊形式,n 阶实对称正定矩阵 A = LL^T,其中 L 为下三角;搬运外网的代码,非原创。    
阅读全文
 
 
        
        posted @ 2023-11-01 14:23
MoonOut
阅读(502)
推荐(0)
        
 
		
    
        
        
摘要:        
贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射,因此 {V, BV, B²V, ...} 是柯西序列,会收敛到 V=BV 的不动点。    
阅读全文
 
 
        
        posted @ 2023-10-24 09:40
MoonOut
阅读(1105)
推荐(0)
        
 
		
    
        
        
摘要:        
代码存档:先写一个 python 的 ssh 连接,再在 ssh 连接里面连 SQL。    
阅读全文
 
 
        
        posted @ 2023-10-07 21:03
MoonOut
阅读(226)
推荐(0)
        
            
        
        
摘要:        
在 typora 中使用 mermaid,实现简单的 markdown 画图。    
阅读全文
 
 
        
        posted @ 2023-10-07 20:53
MoonOut
阅读(584)
推荐(0)
        
 
		
    
        
        
摘要:        
感谢学姐的口述讲授 🌹
(学姐貌似很厉害,发了很多 ccf-a)    
阅读全文
 
 
        
        posted @ 2023-09-07 21:10
MoonOut
阅读(94)
推荐(0)
        
 
		
    
        
        
摘要:        
MySQL 配置 + python 连接 SQL 的简洁教程(以及 SQL server 貌似不太好用)    
阅读全文
 
 
        
        posted @ 2023-08-22 18:41
MoonOut
阅读(68)
推荐(0)
        
 
		
    
        
        
摘要:        
20230726 改革托福题型后,题目更少、考试更轻松了,但容错率也随之降低…    
阅读全文
 
 
        
        posted @ 2023-08-13 15:07
MoonOut
阅读(210)
推荐(0)
        
 
		
    
        
        
摘要:        
1. 先判断题型,2. 跳过读题干 or 细读题干。如果细读题干,请务必认真读题干!    
阅读全文
 
 
        
        posted @ 2023-07-31 12:08
MoonOut
阅读(54)
推荐(0)
        
 
		
    
        
        
摘要:        
当时背了好几篇范文,写作文时把这些 fancy 句子一通缝合,果然可以得高分🤣    
阅读全文
 
 
        
        posted @ 2023-06-24 12:12
MoonOut
阅读(40)
推荐(0)
        
 
		
    
        
        
        
        posted @ 2023-06-16 10:10
MoonOut
阅读(481)
推荐(0)
        
 
		
    
        
        
摘要:        
某种程度上是信服中医的,所以来存个档。    
阅读全文
 
 
        
        posted @ 2023-06-10 21:04
MoonOut
阅读(205)
推荐(0)
        
            
        
        
摘要:        
时空图预测:构造 0 ~ t-1 的 t 个图,然后把 GNN 操作、时序预测操作一通叠加。diffusion:一种加噪声的训练方法。感谢善良的同学 🙏🏻    
阅读全文
 
 
        
        posted @ 2023-06-10 20:55
MoonOut
阅读(331)
推荐(0)
        
            
        
        
摘要:        
在 2019 年某个微雪的冬日,在我们彼此相聚的稀少时光里,在雪花轻缓而静寂的飘落下:时间的流逝,能否再慢一点呢?    
阅读全文
 
 
        
        posted @ 2023-06-10 19:52
MoonOut
阅读(64)
推荐(0)
        
            
        
        
摘要:        
① 用 ML 得到 PUE 模型,② 对各个控制变量做灵敏度分析,③ 试图这样减小 PUE:在腾讯改了一个水流量参数,果然获得一点能效提升。    
阅读全文
 
 
        
        posted @ 2023-06-10 19:38
MoonOut
阅读(59)
推荐(0)
        
            
        
        
        
        posted @ 2023-06-10 19:23
MoonOut
阅读(66)
推荐(0)
        
            
        
        
        
        posted @ 2023-06-10 19:18
MoonOut
阅读(64)
推荐(0)
        
            
        
        
        
        posted @ 2023-06-10 19:15
MoonOut
阅读(79)
推荐(0)
        
            
        
        
        
        posted @ 2023-06-10 19:11
MoonOut
阅读(35)
推荐(0)