lencyy

2026年3月27日

摘要：输入x为（B,d），其中B表示独立的样本个数，d表示每个样本的特征维度，然后W和b的维度都是由输入和输出的维度确定的，假设输出y的维度为（B,3），表示B个独立样本，每个样本都需要3个输出。mlp线性层的目标就是对于每个独立样本输入，根据其d个特征值，得到3个输出值，每个输出都是由多元一次方程计算得阅读全文

posted @ 2026-03-27 20:34 lencyy 阅读(2) 评论(0) 推荐(0)

2026年3月19日

注意力机制

摘要：谁曾想呢，看个新论文反倒是把这个Transformer看懂了haihiahia 如果和我一样对张量理解的不好的，请时刻注意：批处理的独立性：一个批次内部的样本相互独立，我们在计算的时候是针对各个样本内部的token进行的，各个样本彼此独立特征提取：一个[B,L,d]的输入在经过一个神经网络以后，阅读全文

posted @ 2026-03-19 11:20 lencyy 阅读(5) 评论(0) 推荐(0)

2026年3月4日

DDPG算法

摘要：一点点的DDPG理解，发现这个帖子的字数也是一天比一天少了... DDPG算法属于AC算法的一种，与传统的随机策略算法（如PPO）不同，DDPG 的 Actor 网络直接输出连续动作值，而不是输出动作概率分布。具体来说，DDPG在神经网络上定义了确定性映射a=μθ(s)， Actor 网络通常阅读全文

posted @ 2026-03-04 18:03 lencyy 阅读(22) 评论(1) 推荐(0)

2026年3月3日

从Actor Critic到PPO算法

摘要：首先我们从策略梯度说起，强化学习的目标是调整模型参数，改变模型决策，最大化期望回报J(θ) 策略梯度定理告诉我们最原始的reinforce算法，直接用一整条轨迹的回报Gt作为估计但是这种方法要求每次更新都依赖完整的轨迹，并且方差大于是我们引入了评估网络，也就是Actor Critic算法阅读全文

posted @ 2026-03-03 21:34 lencyy 阅读(32) 评论(1) 推荐(0)

在二次函数中学梯度下降算法

摘要：先从二次函数引入，我们现在有f(x)=-x(x-2)，其中x是变量，目的是找到x的值，使得目标函数f(x)最大假设我们现在位于x=0的位置，我们在该位置对目标函数求梯度，f'(x)=-2x+2，f'(0)=2，于是我们对变量x进行更新，x_new=x+αf'(0)=0+0.1*2=0.2。这里阅读全文

posted @ 2026-03-03 17:34 lencyy 阅读(5) 评论(0) 推荐(0)

策略梯度算法

摘要：策略梯度算法，顾名思义，对策略（每个状态state，选择各个动作action的概率）使用梯度下降算法，使得策略越来越好（这里评估策略好的指标是loss小，也就是最大化奖励）我们的目标是最大化期望汇报J（θ），因为是梯度下降算法，所以我们通过最小化Loss（θ）来实现，L(θ)=−J(θ) 策略网络阅读全文

posted @ 2026-03-03 01:30 lencyy 阅读(13) 评论(0) 推荐(0)

2026年3月2日

DQN算法本质-基于价值的强化学习算法

摘要：所有dqn算法（包括但不限于dqn，doubledqn，duelingdqn）的套路都是和环境交互，得到样本(s,a,r,s′,done),等到样本足够多就可以在样本池中进行采样sample，接着使用计算当前主网络估算当前状态-动作对的q值，以及用target网络估算目标TD值 y=r+γma 阅读全文

posted @ 2026-03-02 00:33 lencyy 阅读(6) 评论(0) 推荐(0)

2026年2月23日

RL-DynaQ算法

摘要： DynaQ = Qlearning + 基于模型的离线规划每次与环境进行交互后，不仅执行一次标准的qlearning更新，同时将观测到的状态转移样本存入环境模型。随后从环境模型中随机抽取历史状态-动作样本进行规划更新，实现对历史经验的重复使用。需要强调的是，历史样本在不同时间被使用时所对应的更新阅读全文

posted @ 2026-02-23 11:32 lencyy 阅读(6) 评论(0) 推荐(0)

2026年2月15日

RL-策略迭代算法

摘要：首先需要构建环境 env。环境应完整描述马尔可夫决策过程（MDP）的基本要素，包括状态集合 S 以及状态转移函数 step（即在给定状态与动作下返回下一状态与奖励）。随后对策略进行初始化。策略用于表示在各状态下选择各动作的概率分布。为简化计算，初始时可设定各状态下动作概率为相同值（或统一初始值）。阅读全文

posted @ 2026-02-15 19:55 lencyy 阅读(10) 评论(1) 推荐(0)

2025年8月19日

本地传文件到服务器

摘要：今天学会了新的传文件到服务器的方法，太好用了，比我的拖拽大法快多了我滴老天奶orz （shell)scp "本地文件路径/记得用斜杠\或者双反斜杠" 用户名@服务器地址：服务器文件路径 scp "D:/app下载/AdditionalMaps_0.9.15.tar.gz" fzdx@211.80.1 阅读全文

posted @ 2025-08-19 15:10 lencyy 阅读(2) 评论(0) 推荐(0)

公告