会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
penuel
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
23
下一页
2024年12月10日
OCS2::legged_robot::FrictionConeConstraint摩擦锥约束
摘要: 公式: \(h(F) = u(F_z + F_{gripper}) - \sqrt{F^2_x + F^2_y + \epsilon} >= 0\) \(F_{gripper}\):抓力(如果有) \(\epsilon\):正则化参数,用于避免梯度计算时分母为0 vector_t FrictionC
阅读全文
posted @ 2024-12-10 15:05 penuel
阅读(134)
评论(0)
推荐(0)
2024年12月5日
强化学习理论-第6课-随机近似与随机梯度下降
摘要: 6.1 motivating example : mean estimation 采样足够多进行平均 迭代求平均: \(w_{k+1} = w_k - \frac{1}{k} (w_k - x_k)\) 6.2 Robbins-Monro algorithm RM算法的优点是:不需要知道方程表达式,
阅读全文
posted @ 2024-12-05 11:20 penuel
阅读(143)
评论(0)
推荐(0)
2024年11月18日
强化学习理论-第5课-蒙特卡洛方法
摘要: 之前的章节都是基于model base,这节是model free的方法。 1. model-base to model-free: 2. 计算\(q_{\pi k}:\) 3. MC base algorithm: step 1和model base是不一样的,后面的步骤是一样的。 4. MC e
阅读全文
posted @ 2024-11-18 13:47 penuel
阅读(117)
评论(0)
推荐(0)
2024年11月13日
强化学习理论-第4课-值迭代与策略迭代
摘要: 1. value iteration algorithm: 值迭代上一节已经介绍过: 1.1 policy update: 1.2 Value update: 此时,\(\pi_{k+1}\)和\(v_k\)都是已知的 1.3 procedure summary: 1.4 example: 2. p
阅读全文
posted @ 2024-11-13 11:12 penuel
阅读(205)
评论(0)
推荐(0)
2024年11月12日
强化学习理论-第3课-贝尔曼最优公式
摘要: 1. 贝尔曼最优公式: 1.1 定义: 第2课介绍了贝尔曼公式,里面的\(\pi (a|s)\)策略是固定的,这里我们想求得一个最优的策略,使得state value最好 1.2 matrix-vector form: 2. 求解贝尔曼公式: 公式中,v是一个未知量,\(\pi\)也是要求解的最优策
阅读全文
posted @ 2024-11-12 15:36 penuel
阅读(205)
评论(0)
推荐(0)
2024年11月9日
强化学习理论-第2课-贝尔曼公式
摘要: 1. return和贝尔曼 上图说明从不同状态出发得到的return,依赖于从其他状态出发的return v是return,将第一张图写成矩阵的形式,r代表immediate reward,是已知的,矩阵P是策略加上state transition,也是已知的,求解v 这个公式实际上就是贝尔曼公式
阅读全文
posted @ 2024-11-09 11:20 penuel
阅读(334)
评论(0)
推荐(0)
2024年11月5日
强化学习理论-第1课-基础概念
摘要: 1. state:状态,可以是机器人的位置,速度,加速度等 2. action:对于每一个状态,可能的动作 3. state transition:状态转移 3.1 state transition probability: 4. policy:告诉agent在这个状态应该采用哪个action 5.
阅读全文
posted @ 2024-11-05 09:58 penuel
阅读(50)
评论(0)
推荐(0)
强化学习理论-第0课-汇总
摘要:   
评论(0)
推荐(0)
2024年11月4日
可操作度
摘要: 如上图所示,好的可操作度可以帮助远离奇异点 1. 可操作度: \(m = \sqrt{det(J(q) J(q)^T)}\) 2. 可操作度雅可比: 3. 可操作度控制器QP:
阅读全文
posted @ 2024-11-04 11:18 penuel
阅读(46)
评论(0)
推荐(0)
2024年10月18日
青龙源码解析wbc
摘要: 1. 任务管理: WBC_walk task: "static_Contact"; "Roll_Pitch_Yaw_Pz"; "RedundantJoints"; "PxPy"; "SwingLeg"; "HandTrack"; "HandTrackJoints"; "PosRot" 使能: "st
阅读全文
posted @ 2024-10-18 14:57 penuel
阅读(461)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
23
下一页
公告