摘要: MCMC全称是Markov Chain & Monte Carlo。 在概率图的框架中属于近似推断中的不确定性推断,与之相对的有近似推断中的变分推断(variational Inference)。 MCMC本质是基于“采样”的“随机”“近似”。有三个关键词。 ①采样是说MCMC本质就是一种引入Mar 阅读全文
posted @ 2020-08-02 19:29 Feynmania 阅读(2155) 评论(1) 推荐(1) 编辑
摘要: 0.随机变量及其概率密度函数、采样的用途: 概率密度函数是用于描述某个随机变量的输出值在某个确定值附近的可能性的函数,横坐标为随机变量的某个确定值(范围为[min(值域),max(值域)]),纵坐标为可能性(范围为[0~1]) ,该函数关于z的积分和为1。 假定随机变量z服从于某个概率分布B,对应的 阅读全文
posted @ 2020-08-01 13:35 Feynmania 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 一、指数族分布指的是概率密度函数都能够表述成以下形式的概率分布。 其中fai(x)是充分统计量,A(ita)是对数配分函数。ita是规范化参数。【配分函数其实就是归一化因子的概念,为了使概率满足概率总和为1的约束】 指数族分布包括Gauss分布,bernoulli分布(0,1分布),beta分布,g 阅读全文
posted @ 2020-07-30 17:39 Feynmania 阅读(1841) 评论(0) 推荐(0) 编辑
摘要: %参考:matlab help 文件 %例子中:状态变量为离散分布,值域为{'fair','loaded'};观测变量为离散分布,值域为{'one','two','three','four','five','six'}%符号说明:%states: 隐变量序列;%seq:观测变量系列;%tr:状态转移 阅读全文
posted @ 2020-07-29 17:13 Feynmania 阅读(649) 评论(0) 推荐(0) 编辑
摘要: 1.强化学习与传统控制流程对比 传统控制流程:强化学习流程:reference:控制量(一般是根据某个性能指标进行控制:比如滑移率)。Part of reward function and observations:部分R、部分S,输入Agent( Agent = RL algorithm+poli 阅读全文
posted @ 2020-07-28 17:30 Feynmania 阅读(1190) 评论(0) 推荐(0) 编辑
摘要: 1.1 CAN总线输出数据表头: 解析CAN数据的相关基础知识: 1.channel:CAN通道。 2.Identifier:在某个时间点发送一条报文,该报文的ID号,将这个ID号对照解析文件,从而进行报文解析。 3.Is Standard:判断是否是标准帧。 CAN的消息帧格式有两种,分别是CAN 阅读全文
posted @ 2020-07-28 14:58 Feynmania 阅读(6042) 评论(0) 推荐(1) 编辑
摘要: 贝尔曼最优方程推导(来源:B站up主:shuhuai008) 1.明确一下概念间的关系 2.反证法证明 v*(s)=max(a)_q*(s,a) 3.“套娃”得到贝尔曼最优方程 参考资料: 1.https://www.bilibili.com/video/BV1RA411q7wt?p=5,B站UP主 阅读全文
posted @ 2020-07-28 11:26 Feynmania 阅读(2143) 评论(0) 推荐(1) 编辑
摘要: 由于随机变量Z是离散的,所以是状态转移矩阵,如果变量是连续的,则是状态转移函数,比如马尔科夫决策过程中的状态转移函数P{s',r|s,a},也叫动态特性。 状态转移矩阵示例 表示zt变量有三个状态c1,c2,c3,分别转移到zt+1时刻的c1,c2,c3的概率。(数值待定) 阅读全文
posted @ 2020-07-25 08:35 Feynmania 阅读(1586) 评论(0) 推荐(0) 编辑
摘要: function [Jammer,restnode]=intlintest(adj_matrix,k) u = adj_matrix; n = length(adj_matrix); f = sum(u); % 因为是对称矩阵,行和列和相同,所以无需两个都考虑; %f = sum(u)+sum(u' 阅读全文
posted @ 2020-07-24 12:49 Feynmania 阅读(1291) 评论(0) 推荐(0) 编辑
摘要: 马尔可夫决策过程:MDP 一、MDP模型表示 首先引出马尔可夫决策过程的几个相关变量集合:A={at},S={st},R={rt+1},t=1,2,...T or ∞。A表示Action,S表示State,R表示Reward,这几个均是静态的随机变量,可以是离散的,也可以是连续的。 ①如果变量是离散 阅读全文
posted @ 2020-07-23 18:36 Feynmania 阅读(1308) 评论(0) 推荐(0) 编辑