随笔分类 - 机器学习
学机器学习的笔记
摘要:###1. 连续动作空间VS离散动作空间 【离散动作空间】Q表格、SARSA、on-policy以及off-policy、Q-learing []()https://blog.csdn.net/zbp_12138/article/details/106837306 【连续动作空间】 用神经网络的方法
阅读全文
摘要:###KL散度(KL-divergence) 直观解释:KL 散度是一种衡量两个分布(比如两条线)之间的匹配程度的方法。 需要解决的问题:已知数据太大,逍遥使用较小的信息表示已知数据。用某种已知分布来表示真实统计数据,这样我们就可以只发送该分布的参数,而无需发送真实统计数据。 KL-divergen
阅读全文
摘要:###MDP算法 MDP被定义为一个元组(S,A,P,r,R) S:所有状态集合 A:在环境力里面智能体所作动作的集合 P:状态转移函数P(s'|s,a),智能体在当前s下,执行a之后,转移到是s'的概率 R:奖励函数R(s,a),表示在环境s下执行动作a之后获得的立即奖励,有时候还需要知道s'是多
阅读全文
摘要:###强化学习基础   **序列决策问题一般用马尔可夫决策模型进行描述** 都不会提高自
阅读全文

浙公网安备 33010602011771号