会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
牧云文仔
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
···
15
下一页
2025年9月28日
非线性规划、最优控制与多目标优化
摘要: 一、非线性规划(Nonlinear Programming,NLP) 1、线性规划LP:运筹学中,对于资源分配、计划调度等问题,有数学公式可以求解,数学公式的目标函数与所有约束条件均为线性 2、非线性函数:二次函数、指数函数、三角函数等 3、非线性规划NLP,研究目标函数或者约束条件,至少有一个为非
阅读全文
posted @ 2025-09-28 11:49 牧云文仔
阅读(26)
评论(0)
推荐(0)
2025年9月15日
强化学习(二十)-模仿学习
摘要: 一、概念 1、很多情况下,环境没有明确的奖励,例如聊天,自动驾驶的操作,无法明确定义好坏 2、不知道该怎么定义奖励时,可以收集专家示范 3、模仿学习(imitation learning,IL):智能体通过专家示范来学习,环境没有奖励给智能体 二、行为克隆 1、类似于监督学习,专家做什么,智能体就做
阅读全文
posted @ 2025-09-15 11:46 牧云文仔
阅读(111)
评论(0)
推荐(0)
强化学习(十九)-稀疏奖励
摘要: 一、概念 1、实际环境中,用强化学习训练智能体,多数时候智能体不能得到奖励,即奖励很稀疏(稀少) 2、例如人在大部分时候,是不会得到奖励或者惩罚的,只是普通的生活 3、在得不到奖励的情况下,训练智能体是很困难的,智能体什么都学不到 二、解决方法 1、设计奖励:虽然环境没有给智能体奖励,但可以人为给智
阅读全文
posted @ 2025-09-15 11:16 牧云文仔
阅读(142)
评论(0)
推荐(0)
2025年8月26日
强化学习(十八)-AlphaGo Zero
摘要: 一、介绍 1、两个模型:MCTS树结构,神经网络
阅读全文
posted @ 2025-08-26 17:55 牧云文仔
阅读(25)
评论(0)
推荐(0)
强化学习(十七)-MCTS
摘要: 一、基于模拟的搜索 1、模拟:基于强化学习模型,进行采样,得到样本数据 2、搜索:利用模拟的样本数据,计算采取什么动作 3、非模拟的前向搜索,状态动作数量多,就会导致动作的选择特别慢,不实用 4、MCTS适合状态、动作是海量数据的强化学习 二、简单蒙特卡洛搜索 1、可以处理中等规模的问题,比前向搜索
阅读全文
posted @ 2025-08-26 17:54 牧云文仔
阅读(30)
评论(0)
推荐(0)
强化学习(十六)-Dyna
摘要: 一、强化学习分类 1、基于价值:从价值函数中学习,Q-Learning,Sarsa 2、基于策略:从策略函数中学习,Policy Gradient 3、基于模型:从环境的模型中学习,不需要和环境交互,类似于监督学习,有两个模型 状态转化预测模型:输入当前状态s和动作a,预测下一个状态s' 奖励预测模
阅读全文
posted @ 2025-08-26 17:53 牧云文仔
阅读(40)
评论(0)
推荐(0)
强化学习(十三)-A3C
摘要: 一、概念 1、异步优势演员评论家算法(Asynchronous Advanced Actor Critic,A3C),解决Actor Critic很难收敛的问题,加速强化学习 2、创建多个并行环境,并行计算,然后合并学习到的结果,避免了经验回放相关性太强的问题 3、使用python多线程,提供了通用
阅读全文
posted @ 2025-08-26 13:42 牧云文仔
阅读(34)
评论(0)
推荐(0)
强化学习(九)-DQN的改进算法
摘要: 一、Nature DQN 1、DQN缺点:只有一个神经网络,既选择动作,又估计价值,估计值容易过高;不能保证Q网络收敛,Q网络模型效果差 2、Nature DQN两个Q神经网络,在线网络用于动作选择,目标网络用于估计Q值,减少目标Q值计算和要更新Q网络参数之间的依赖 3、这两个神经网络结构是一样的
阅读全文
posted @ 2025-08-26 13:34 牧云文仔
阅读(28)
评论(0)
推荐(0)
2025年8月25日
强化学习(五)-时序差分法TD求解
摘要: 一、概述 1、蒙特卡洛法的缺点:需要一个经历完整的状态序列,从中采样;如公式里的奖励Rt+1到RT,表示完整状态序列的奖励 2、时序差分(Temporal-Difference,TD),不基于环境的状态转化概率模型,也不需要经历完整的状态序列,介于动态规划和蒙特卡洛方法之间 3、是现在主流的强化学习
阅读全文
posted @ 2025-08-25 18:24 牧云文仔
阅读(82)
评论(0)
推荐(0)
强化学习(四)-蒙特卡洛MC求解
摘要: 一、引入 1、动态规划求解的缺点: a.每次回溯更新状态价值时,要回溯所有可能的后续状态,复杂问题计算量很大 b.无法知道环境的状态转化模型P,已知P,是基于模型的强化学习算法;但很多问题无法事先知道P 2、蒙特卡洛方法(Monte-Calo,MC) 是一种近似求解的方法,通过采样来估计状态的真实价
阅读全文
posted @ 2025-08-25 18:19 牧云文仔
阅读(10)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
15
下一页
公告