摘要: 一句话总结 GAE 就像「既要稳又要准」的聪明妥协:用多步 TD 误差加权平均,既缓解了 MC 的高方差,又减少了 TD 的单一偏差,通过调节参数(λ)灵活平衡两者的优缺点。 MC vs TD 的痛点 MC(蒙特卡洛): 原理:跑完整个回合,用实际总回报(如游戏通关后的总分)更新每一步的价值。 优点 阅读全文
posted @ 2025-10-11 00:50 AikNr 阅读(181) 评论(0) 推荐(0)
摘要: NLP Note 线性神经网络 搞一个损失函数,然后用梯度下降的方法,不断修改自己的参数,使得损失函数最小,即最贴近实际情况 梯度下降:每次往一个梯度最大的方向移动一个步长的大小 多层感知机 相比于线性神经网络,加入了隐藏层(激活函数),引入了非线性变化,使得模型可以拟合一些非线性的情况 Softm 阅读全文
posted @ 2025-08-12 00:53 AikNr 阅读(31) 评论(0) 推荐(0)
摘要: DAPO 裁剪偏移 提高了 clip 中 (1 - sita, 1+sita)的范围,减少了熵下降的速度。在高熵的状态下可以做更多的探索,高熵就是策略的随机性强,探索能力高,低熵就是随机性低,策略确定性高,偏向利用已知的高奖励动作,探索性低 clip 的上界会限制 policy 的 explorat 阅读全文
posted @ 2025-08-12 00:53 AikNr 阅读(85) 评论(0) 推荐(0)
摘要: 深入解析:模型参数、权重、激活值与梯度的关系 在神经网络的核心运作机制中,模型参数(Parameters)、权重(Weights)、激活值(Activations) 和 梯度(Gradients) 是四个紧密相连、缺一不可的关键概念。它们共同协作,驱动着模型的学习和预测过程。简而言之,它们之间的关系 阅读全文
posted @ 2025-08-12 00:52 AikNr 阅读(153) 评论(0) 推荐(0)
摘要: 在深度学习中,无论是进行模型推理(Inference)还是训练(更新参数),都需要占用大量GPU显存(VRAM)。然而,这两者在显存需求和构成上存在显著差异。总体而言,模型训练所需的显存远大于推理。 下面将详细解析在两个阶段中,显存分别被哪些部分占用。 一、 模型推理(Inference)时的显存占 阅读全文
posted @ 2025-08-12 00:52 AikNr 阅读(285) 评论(0) 推荐(0)
摘要: 机器学习中的正则化:通俗易懂的解释 在机器学习领域,正则化 (Regularization) 是一类旨在防止模型过拟合、增强其泛化能力的关键技术。简单来说,正则化就是在模型的学习过程中,通过引入额外的信息或约束(即对模型复杂度的一种惩罚),来引导模型学习到更简单、更平滑的规律,从而避免模型对训练数据 阅读全文
posted @ 2025-08-12 00:50 AikNr 阅读(129) 评论(0) 推荐(0)
摘要: 基本流程 核心思想 目标:让小规模开源模型(如32B参数)在单GPU上达到与大型闭源模型(如671B参数)相近的性能。 关键策略: 内部测试时计算(Internal TTC):训练模型进行更长的多步推理。 外部测试时计算(External TTC):在推理时生成多个候选方案,并通过验证筛选最优解。 阅读全文
posted @ 2025-06-03 18:09 AikNr 阅读(102) 评论(0) 推荐(0)
摘要: 全网第二细致的Verl GRPO实现拆解讲解 标题党致歉,纯引流 观前提示,内含大量注释代码,善用左侧目录跳过可改善阅读体验 如果你有一些对GRPO改进的IDEA,看完这篇文章后你将知道如何在verl里进行修改并实现自己的IDEA。 本篇文章是在锝人的报告下继续撰写,主要着重于讲解verl实现中一些 阅读全文
posted @ 2025-05-23 19:38 AikNr 阅读(9387) 评论(4) 推荐(4)
摘要: 用户态的sysinfo(),首先系统会从user/user.h里找到声明,随后由链接到 usys.S 中的汇编代码来实现的。usys.S是通过usys.pl生成的。usys.S 文件定义了所有系统调用的入口点(如下),这些入口点使用 .global 指令使函数名在链接时可见。当用户程序中调用 sys 阅读全文
posted @ 2024-09-07 21:31 AikNr 阅读(49) 评论(0) 推荐(0)
摘要: 起因是看到了 大佬博客 里面一个计时的小工具,于是也想搞一个来提醒自己珍惜时间。 经过一段时间对快捷指令的摸索,最终选择了如下的方式完成: 快捷指令的链接在这里给出: https://www.icloud.com/shortcuts/94d5327fddd344a6b333a454ad1c7bbe 阅读全文
posted @ 2024-06-12 16:17 AikNr 阅读(114) 评论(0) 推荐(0)
摘要: Mit 6.824 Raft实验 2A 2B Author: Minghao Zhou 这个项目写了好久,从一点也看不懂开始,到最后debug就和回家一样自然,成就感还是很足的哈哈。看大佬的架构和代码感觉学到了很多,故在此记录一下。 \src\raft> go test -run 2A Test ( 阅读全文
posted @ 2024-05-10 22:23 AikNr 阅读(130) 评论(0) 推荐(0)
摘要: 椭圆曲线简单总结 写这篇文章原因是老是忘记每个符号代表什么,所以搞一个简单的对照表 元素 符号 参考起始点 G ,可以是任意一点 私钥dA 一个随机数dA 公钥QA QA = dA x G 随机数 k 消息摘要 z P点 k x G 签名 (R, S) R 是 P点的x坐标 \(S = k^{-1} 阅读全文
posted @ 2023-11-18 10:41 AikNr 阅读(37) 评论(0) 推荐(0)
摘要: Linux Shell整理小知识 介绍两个命令 1. shopt shell option, 即shell的一些选项设置 [root@localhost ~]# shopt autocd off cdable_vars off cdspell off checkhash off checkjobs 阅读全文
posted @ 2022-08-11 14:49 AikNr 阅读(57) 评论(0) 推荐(0)
摘要: CVE-2021-41773 && CVE-2021-42013 参考了这个师傅的WP https://www.jianshu.com/p/3076d9ec68cf CVE-2021-41773 漏洞成因 Apache HTTP Server 2.4.49版本使用的ap_normalize_path 阅读全文
posted @ 2022-03-17 13:19 AikNr 阅读(1000) 评论(0) 推荐(0)
摘要: Docker 的基本使用方法 最近在尝试复现研究CVE,docker太方便了,学了下基本的使用方法,怕忘记,记于此处 1. 容器与镜像 镜像是一堆只读的文件。 容器 = 镜像 + 读写层 运行态的容器 = 镜像 + 读写层 + 隔离的进程空间(包含进程) 我们下载镜像到本地,使用镜像创建容器,然后启 阅读全文
posted @ 2022-03-16 21:19 AikNr 阅读(136) 评论(0) 推荐(1)
摘要: [HITCON 2017]SSRFme 1 学到了perl的open中的命令执行漏洞,参考了这篇博客大佬一的博客和这篇大佬二的博客 open漏洞 在perl语言中,open函数存在命令执行漏洞:如果open文件名中存在管道符(也叫或符号|),就会将文件名直接以命令的形式执行,然后将命令的结果存到与命 阅读全文
posted @ 2022-03-01 23:41 AikNr 阅读(695) 评论(0) 推荐(0)
摘要: HTML实体编码转换 html中不允许使用尖括号,因为会被误认为标签,但是实际生活中我们是有使用尖括号的需求的,所以我们用一种编码的方式来代替具体的符号。 即 &#加上ascii码加上分号; 如a --> a html可以识别这种编码,但是js没有办法识别。故实际在注入的时候,我们可能需要使 阅读全文
posted @ 2022-02-27 22:54 AikNr 阅读(970) 评论(0) 推荐(0)
摘要: 无列名注入_2 在之前,我们使用了select `1` from (select 1,2 union select * from tableX)a这样一个形式来进行无列名注入,原理可以看我之前写的(抄的)一篇https://www.cnblogs.com/AikN/p/15725756.html 在 阅读全文
posted @ 2022-01-28 02:02 AikNr 阅读(218) 评论(0) 推荐(0)
摘要: [RCTF2015]EasySQL 报错注入与二次注入 二次注入,可以概括为以下两步: 第一步:插入恶意数据 进行数据库插入数据时,对其中的特殊字符进行了转义处理,在写入数据库的时候又保留了原来的数据。 第二步:引用恶意数据 开发者默认存入数据库的数据都是安全的,在进行查询时,直接从数据库中取出恶意 阅读全文
posted @ 2022-01-06 21:07 AikNr 阅读(576) 评论(1) 推荐(1)
摘要: php伪随机数爆破 涉及到的函数为mt_rand() mt_rand(min, max) 返回min到max之间的伪随机数,如果参数缺省,则返回0到RAND_MAX之间的伪随机数。 不同于常规的伪随机数生成器,mt_rand()函数使用内置的算法直接生成种子,来生成伪随机数,不需要用户手动播种。 N 阅读全文
posted @ 2022-01-04 22:17 AikNr 阅读(702) 评论(0) 推荐(0)