随笔分类 -  算法

算法
摘要:一、背景介绍 传统的强化学习问题研究的是个体与环境交互,通过环境反馈的reward来指导个体学习策略,经典的算法有Q-Learning、DQN、DDPG等。 但现实场景中,环境中个体并不是孤立,例如有多个机器人合力推举一个重物,也或者有对抗的个体进行阻碍。总之多个个体都需要学会合作亦或者竞争。 多智 阅读全文
posted @ 2020-07-24 10:02 coolAlan 阅读(2495) 评论(0) 推荐(0)
摘要:回到博客园,上次发博已是5年,不曾想,机缘巧合,以参加一次Paddle训练营心得来回归博客园。 偶然收到百度Paddle强化学习7日训练营邮件,心想研究生期间也曾学习过一段时间(不过一知半解),颇想进一步学习下并有有所实践,暗合我意。 心想:虽然大部分时间要上班,这7天时间不长,应该很好坚持下来吧。 阅读全文
posted @ 2020-06-27 09:02 coolAlan 阅读(274) 评论(0) 推荐(0)
摘要:PCA,主成分分析 主成分分析主要用于数据的降维。原始数据中数据特征的维度可能是很多的,但是这些特征并不一定都是重要的,如果我们能够将数据特征进行精简,不但能够减少存储空间,而且也有可能降低数据中的噪声干扰。 举个例子:这里有一组数据,如下 表1 2.5 1.2 -2.3 -2.8 -1 ... 阅读全文
posted @ 2015-09-03 15:44 coolAlan 阅读(912) 评论(0) 推荐(0)
摘要:MDP:马尔科夫决策过程(Markov Decision Process)贝尔曼等式:上节说到,这是对于确定性动作的模型。如果随机性动作的模型,应该表示为即,执行动作后的状态有多个,按照概率乘以值函数得到上式。因此,当前状态最优执行动作就是对于每个状态都有一个Vπ(S) ,所以对于每一步来说,可以得... 阅读全文
posted @ 2015-03-20 10:55 coolAlan 阅读(293) 评论(0) 推荐(0)
摘要:MDP:马尔科夫决策过程(Markov Decision Process)策略评价:对于确定性动作(deterministic actions),由于状态转换可能是无限的,那么奖惩函数之和的值也可能是无限的;对于随机性动作(stochastic actions),同样,奖惩函数期望之和也有可能是无限... 阅读全文
posted @ 2015-03-20 10:39 coolAlan 阅读(413) 评论(0) 推荐(0)
摘要:MDP:马尔科夫决策过程(Markov Decision Process)定义:一个马尔可夫模型包括如下部分状态集 S (States)动作集 A (Actions)奖惩函数 R (reward function)在状态 s 下,执行 a 动作的影响函数 T我们假设执行动作 a 的效果只与当... 阅读全文
posted @ 2015-03-20 09:56 coolAlan 阅读(403) 评论(0) 推荐(0)
摘要:极大似然估计又称最大似然估计,对于一个已知的模型来说,还有些参数是不确定的,但是有了真实数据,那么这些参数可不可计算出呢?或者估计出最有可能的情况?举个例子,例如有一组来自正态分布(也叫高斯分布)的样本数据,每个样本的数据都独立同分布,比如是正态分布,但正态分布的参数μ,σ都不知道,如果用极大似然估... 阅读全文
posted @ 2015-01-16 22:42 coolAlan 阅读(407) 评论(0) 推荐(0)
摘要:0-1背包问题0-1背包问题:有N件物品和一个容量为V的背包。第i件物品的费用是c[i],价值是w[i]。求解将哪些物品装入背包可使这些物品的费用总和不超过背包容量,且价值总和最大。这个问题的特点是:每种物品只有一件,可以选择放或者不放。算法基本思想:利用动态规划思想 ,子问题为:f[i][v]表示... 阅读全文
posted @ 2014-11-11 22:36 coolAlan 阅读(169) 评论(0) 推荐(0)