会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
阿基米德的澡盆
博客园
首页
新随笔
联系
订阅
管理
[置顶]
[学习笔记]ROS学习中需要注意的地方
摘要: 这个帖子跟之前的数据结构踩坑类似,是用来记录ros学习/使用过程中的一些坑人的地方的。 因为今天(2022.7.7)遇到了一些状况,所以想起来了这个方法来记录一下。 1、ros中,定义msg发布类体之中的成员类型,不能用int,float之类的,必须要用int32,float32这样的字段申明,不然
阅读全文
posted @ 2022-07-07 22:46 阿基米德的澡盆
阅读(63)
评论(0)
推荐(0)
[置顶]
STL&&用法集合
摘要: .....STL是c++里很强势很好用的一系列容器(函数)之类的,之前一直不太会用,所以总是暴毙。。。。想着快比赛了,是时候理一下这些东西了。 -1、pair 存放两个基本元素的东西 定义方法: pair<type,type> name 若不定义优先级则默认为第一元素的优先级 0、重载运算符(对于结
阅读全文
posted @ 2019-10-28 00:46 阿基米德的澡盆
阅读(269)
评论(0)
推荐(1)
[置顶]
数据结构细节集散地
摘要: emmmm。。。数据结构的大码量经常死在一些小错误上(比如一个字母,等号),然后导致一查查半年。这里汇总一下错误吧。 1、线段树操作进行二分操作时,mid用的是当前块的左右区间(t[p].l),不是查询区间的lr,错过几次 2、树剖中,(好吧其实还是线段树),向下递归,第二个判断区间相交的if不能用
阅读全文
posted @ 2019-10-26 11:26 阿基米德的澡盆
阅读(144)
评论(0)
推荐(0)
[置顶]
可爱的模板们
摘要: emmm,快比赛了,也是时候把学过的,打过的板子都拿出来晒一晒了。 顺序大部分由luogu提供,不一定按难度排序。码风是与现在最接近的一版(以前的我真毒瘤) 以代码核心为重,不一定能通过luogu的模板题 一、堆 查询/删除最小值,插入一个值,用STL之priority_queue实现 #inclu
阅读全文
posted @ 2019-10-20 21:15 阿基米德的澡盆
阅读(358)
评论(0)
推荐(2)
[置顶]
dp的林林总总(持续更新,dp骚气解法等等)
摘要: 写在前面: 本人dp较弱,所以总结了一些坑点,转化思路以供复习使用,勿喷,甚至一些不是dp的题(贪心等等)也会放在这。 每个点后面会有我自己的题解,如果没有链接,向下找第一个链接,可能会有多题。 1、当有两人博弈时,先手最优可以转化为后手最劣(bzoj2101传送门) 2、一些骚气的dp可以直接转化
阅读全文
posted @ 2019-08-12 16:51 阿基米德的澡盆
阅读(351)
评论(0)
推荐(0)
2026年3月11日
[学习笔记]PPO_penalty:trpo的工程化版本
摘要: 在trpo出现后,强化学习迎来了一波热潮。 但是,trpo确实是有点复杂,而且有一些缺陷,比如: 为了保护策略的稳定性,trpo使用硬约束,只要策略超出接受范围,就直接裁断,这让策略的利用率大大降低 还有,二阶优化+线搜索确实是很难算啊。虽然从原本的二阶矩阵求逆已经简化为求解线性方程组,但是也不免让
阅读全文
posted @ 2026-03-11 17:37 阿基米德的澡盆
阅读(2)
评论(0)
推荐(0)
[实践记录]openclaw养虾流程
摘要: 说实话,本来这个大火的东西没有怎么引起我的注意,本以为又是一个大模型韭菜 自己折腾了半天,安装了一个,然后丢进去一个指令让它帮我查一下显存,花了半分钟才出结果 好像没什么大用,还花了1毛钱的deepseek tokens 然后就吃灰了两天 直到昨天,我折腾一个ai demo的时候搞不定老版本的库函数
阅读全文
posted @ 2026-03-11 11:25 阿基米德的澡盆
阅读(3)
评论(0)
推荐(0)
2026年3月5日
[学习笔记]trpo——对策略进行显式约束
摘要: 再继续,actor-critic之后就是著名的trpo 这个东西熬,算是强化学习入门之后的第一个boss了 第一遍看完,只觉得它是策略梯度的pro plus版本,后续看来,它是能作为接下来好几年开山之作的存在 0.Actor-Critic算法的优劣分析 首先,还是分析一下之前Actor-Critic
阅读全文
posted @ 2026-03-05 23:44 阿基米德的澡盆
阅读(5)
评论(0)
推荐(0)
[学习笔记]强化学习之actor-critic
摘要: 继续,策略梯度之后就是actor-critic 策略梯度很好用,是吧? 那么就面临了一个问题 直接拟合策略,不像通过价值函数那样,可以通过简单方式来判断其优劣 直接表现在训练上就是,它比dqn要难以收敛。 虽然在倒立摆这个简单的环境上没有什么体现 但是直观理解一下: 虽然reinforce中的网络是
阅读全文
posted @ 2026-03-05 17:21 阿基米德的澡盆
阅读(3)
评论(0)
推荐(0)
[学习笔记]强化学习之策略梯度
摘要: 之前大概把强化学习基础看了,但是发现已经忘完了...回来补一下策略梯度trpo等等,一点一点补吧... 首先是策略梯度 之前的强化学习,是基于Q-table的,也就是基于价值函数。 决策路线大概是:策略——利用价值函数判断策略的好坏——选择较优的策略 这中间就多了一层 一个直观的想法就是:能不能直接
阅读全文
posted @ 2026-03-05 09:39 阿基米德的澡盆
阅读(2)
评论(0)
推荐(0)
2026年2月2日
TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control
摘要: 再开个专题吧,把读到的一些论文总结一下。 水平实在是有限,就写一下我的精读结果,和其中的一些问题 那么,今天读到的论文是 TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control ht
阅读全文
posted @ 2026-02-02 17:21 阿基米德的澡盆
阅读(10)
评论(0)
推荐(0)
2026年1月31日
[实践记录]论文归档项目
摘要: 这一个月陆陆续续的干了一个学长派的活,于是想记录一下 想来想去放在学习笔记里好像不怎么合适,因为一直在折磨ai,学的东西也用不太上 反正离睡觉还有个半个小时,还是想着记录以下 虽然大概我自己都不会翻第二次 那就新开一栏,记录一下整个项目的过程吧 先贴一下博客地址 arXiv 澡盆妙妙屋 0.项目描述
阅读全文
posted @ 2026-01-31 00:01 阿基米德的澡盆
阅读(15)
评论(0)
推荐(1)
2026年1月7日
[学习笔记]Flow Matching with MNIST
摘要: 一刻也没有为扩散模型感到悲哀,接下来赶到战场的是——流匹配! [学习笔记]DDPM图片降噪 - 阿基米德的澡盆 - 博客园 (牛马圣体是这样的0.0无聊到看代码写博客) 继续贴仓库 ajmddzp/flow-matching-ddmp 不多废话了,继续写吧 0.什么是流匹配 流匹配就是一种很牛逼的方
阅读全文
posted @ 2026-01-07 22:47 阿基米德的澡盆
阅读(37)
评论(0)
推荐(0)
[学习笔记]DDPM图片降噪
摘要: 之前学习了一下流匹配的最简单的demo,前两天学长讲了一下扩散模型的简单应用,就尽快学一下然后把博客写上来。 先贴一下仓库 ajmddzp/flow-matching-ddmp 然后是学长的博客 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼 - 科学空间|Scientific Spaces
阅读全文
posted @ 2026-01-07 22:29 阿基米德的澡盆
阅读(15)
评论(0)
推荐(0)
2026年1月4日
[学习笔记]强化学习基础入门
摘要: 前段时间学习了一下强化学习入门,一直没有时间写博客 元旦放假,来补一下博客学习笔记吧。 强化学习跟着学长给的教程简单入门了一下 https://hrl.boyuai.com/chapter/intro 强化学习基础,讲得不错 学了个大概,了解了原理之后回头看框架更加清晰了。 那就从一个新手的角度出发
阅读全文
posted @ 2026-01-04 11:35 阿基米德的澡盆
阅读(22)
评论(0)
推荐(0)
下一页
公告