会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lencyy
博客园
首页
新随笔
联系
订阅
管理
2026年3月27日
MLP线性层
摘要: 输入x为(B,d),其中B表示独立的样本个数,d表示每个样本的特征维度,然后W和b的维度都是由输入和输出的维度确定的,假设输出y的维度为(B,3),表示B个独立样本,每个样本都需要3个输出。mlp线性层的目标就是对于每个独立样本输入,根据其d个特征值,得到3个输出值,每个输出都是由多元一次方程计算得
阅读全文
posted @ 2026-03-27 20:34 lencyy
阅读(2)
评论(0)
推荐(0)
2026年3月19日
注意力机制
摘要: 谁曾想呢,看个新论文反倒是把这个Transformer看懂了haihiahia 如果和我一样对张量理解的不好的,请时刻注意: 批处理的独立性:一个批次内部的样本相互独立,我们在计算的时候是针对各个样本内部的token进行的,各个样本彼此独立 特征提取:一个[B,L,d]的输入在经过一个神经网络以后,
阅读全文
posted @ 2026-03-19 11:20 lencyy
阅读(5)
评论(0)
推荐(0)
2026年3月4日
DDPG算法
摘要: 一点点的DDPG理解,发现这个帖子的字数也是一天比一天少了... DDPG算法属于AC算法的一种, 与传统的随机策略算法(如PPO)不同,DDPG 的 Actor 网络直接输出连续动作值,而不是输出动作概率分布。 具体来说,DDPG在神经网络上定义了确定性映射a=μθ(s), Actor 网络通常
阅读全文
posted @ 2026-03-04 18:03 lencyy
阅读(22)
评论(1)
推荐(0)
2026年3月3日
从Actor Critic到PPO算法
摘要: 首先我们从策略梯度说起, 强化学习的目标是调整模型参数,改变模型决策,最大化期望回报J(θ) 策略梯度定理告诉我们 最原始的reinforce算法,直接用一整条轨迹的回报Gt作为估计 但是这种方法要求 每次更新都依赖完整的轨迹,并且方差大 于是我们引入了评估网络,也就是Actor Critic算法
阅读全文
posted @ 2026-03-03 21:34 lencyy
阅读(32)
评论(1)
推荐(0)
在二次函数中 学梯度下降算法
摘要: 先从二次函数引入,我们现在有f(x)=-x(x-2),其中x是变量,目的是找到x的值,使得目标函数f(x)最大 假设我们现在位于x=0的位置,我们在该位置对目标函数求梯度,f'(x)=-2x+2,f'(0)=2, 于是我们对变量x进行更新,x_new=x+αf'(0)=0+0.1*2=0.2。 这里
阅读全文
posted @ 2026-03-03 17:34 lencyy
阅读(5)
评论(0)
推荐(0)
策略梯度算法
摘要: 策略梯度算法,顾名思义,对策略(每个状态state,选择各个动作action的概率)使用梯度下降算法,使得策略越来越好(这里评估策略好的指标是loss小,也就是最大化奖励) 我们的目标是最大化期望汇报J(θ),因为是梯度下降算法,所以我们通过最小化Loss(θ)来实现,L(θ)=−J(θ) 策略网络
阅读全文
posted @ 2026-03-03 01:30 lencyy
阅读(13)
评论(0)
推荐(0)
2026年3月2日
DQN算法本质-基于价值的强化学习算法
摘要: 所有dqn算法(包括但不限于dqn,doubledqn,duelingdqn)的套路都是 和环境交互,得到样本(s,a,r,s′,done),等到样本足够多就可以在样本池中进行采样sample, 接着使用计算当前主网络估算 当前状态-动作对的q值,以及用target网络估算目标TD值 y=r+γma
阅读全文
posted @ 2026-03-02 00:33 lencyy
阅读(6)
评论(0)
推荐(0)
2026年2月23日
RL-DynaQ算法
摘要: DynaQ = Qlearning + 基于模型的离线规划 每次与环境进行交互后,不仅执行一次标准的qlearning更新,同时将观测到的状态转移样本存入环境模型。随后从环境模型中随机抽取历史状态-动作样本进行规划更新,实现对历史经验的重复使用。 需要强调的是,历史样本在不同时间被使用时所对应的更新
阅读全文
posted @ 2026-02-23 11:32 lencyy
阅读(6)
评论(0)
推荐(0)
2026年2月15日
RL-策略迭代算法
摘要: 首先需要构建环境 env。环境应完整描述马尔可夫决策过程(MDP)的基本要素,包括状态集合 S 以及状态转移函数 step(即在给定状态与动作下返回下一状态与奖励)。 随后对策略进行初始化。策略用于表示在各状态下选择各动作的概率分布。为简化计算,初始时可设定各状态下动作概率为相同值(或统一初始值)。
阅读全文
posted @ 2026-02-15 19:55 lencyy
阅读(10)
评论(1)
推荐(0)
2025年8月19日
本地传文件到服务器
摘要: 今天学会了新的传文件到服务器的方法,太好用了,比我的拖拽大法快多了我滴老天奶orz (shell)scp "本地文件路径/记得用斜杠\或者双反斜杠" 用户名@服务器地址:服务器文件路径 scp "D:/app下载/AdditionalMaps_0.9.15.tar.gz" fzdx@211.80.1
阅读全文
posted @ 2025-08-19 15:10 lencyy
阅读(2)
评论(0)
推荐(0)
公告