上一页 1 2 3 4 5 6 ··· 23 下一页
摘要: 公式: \(h(F) = u(F_z + F_{gripper}) - \sqrt{F^2_x + F^2_y + \epsilon} >= 0\) \(F_{gripper}\):抓力(如果有) \(\epsilon\):正则化参数,用于避免梯度计算时分母为0 vector_t FrictionC 阅读全文
posted @ 2024-12-10 15:05 penuel 阅读(134) 评论(0) 推荐(0)
摘要: 6.1 motivating example : mean estimation 采样足够多进行平均 迭代求平均: \(w_{k+1} = w_k - \frac{1}{k} (w_k - x_k)\) 6.2 Robbins-Monro algorithm RM算法的优点是:不需要知道方程表达式, 阅读全文
posted @ 2024-12-05 11:20 penuel 阅读(143) 评论(0) 推荐(0)
摘要: 之前的章节都是基于model base,这节是model free的方法。 1. model-base to model-free: 2. 计算\(q_{\pi k}:\) 3. MC base algorithm: step 1和model base是不一样的,后面的步骤是一样的。 4. MC e 阅读全文
posted @ 2024-11-18 13:47 penuel 阅读(117) 评论(0) 推荐(0)
摘要: 1. value iteration algorithm: 值迭代上一节已经介绍过: 1.1 policy update: 1.2 Value update: 此时,\(\pi_{k+1}\)和\(v_k\)都是已知的 1.3 procedure summary: 1.4 example: 2. p 阅读全文
posted @ 2024-11-13 11:12 penuel 阅读(205) 评论(0) 推荐(0)
摘要: 1. 贝尔曼最优公式: 1.1 定义: 第2课介绍了贝尔曼公式,里面的\(\pi (a|s)\)策略是固定的,这里我们想求得一个最优的策略,使得state value最好 1.2 matrix-vector form: 2. 求解贝尔曼公式: 公式中,v是一个未知量,\(\pi\)也是要求解的最优策 阅读全文
posted @ 2024-11-12 15:36 penuel 阅读(205) 评论(0) 推荐(0)
摘要: 1. return和贝尔曼 上图说明从不同状态出发得到的return,依赖于从其他状态出发的return v是return,将第一张图写成矩阵的形式,r代表immediate reward,是已知的,矩阵P是策略加上state transition,也是已知的,求解v 这个公式实际上就是贝尔曼公式 阅读全文
posted @ 2024-11-09 11:20 penuel 阅读(334) 评论(0) 推荐(0)
摘要: 1. state:状态,可以是机器人的位置,速度,加速度等 2. action:对于每一个状态,可能的动作 3. state transition:状态转移 3.1 state transition probability: 4. policy:告诉agent在这个状态应该采用哪个action 5. 阅读全文
posted @ 2024-11-05 09:58 penuel 阅读(50) 评论(0) 推荐(0)
摘要: ![](https://img2024.cnblogs.com/blog/1746850/202411/1746850-20241105093751819-829769841.jpg) ![](https://img2024.cnblogs.com/blog/1746850/202411/1746850-20241105093753475-478576475.jpg) ![](https://im 阅读全文
posted @ 2024-11-05 09:38 penuel 阅读(21) 评论(0) 推荐(0)
摘要: 如上图所示,好的可操作度可以帮助远离奇异点 1. 可操作度: \(m = \sqrt{det(J(q) J(q)^T)}\) 2. 可操作度雅可比: 3. 可操作度控制器QP: 阅读全文
posted @ 2024-11-04 11:18 penuel 阅读(46) 评论(0) 推荐(0)
摘要: 1. 任务管理: WBC_walk task: "static_Contact"; "Roll_Pitch_Yaw_Pz"; "RedundantJoints"; "PxPy"; "SwingLeg"; "HandTrack"; "HandTrackJoints"; "PosRot" 使能: "st 阅读全文
posted @ 2024-10-18 14:57 penuel 阅读(461) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 23 下一页