什么是马尔可夫过程?

假设有一个过程:  状态S1 -> 状态S22  -> 状态S33 -> 状态S

如果上面的过程加一个条件,下一个状态只与当前状态有关, 那么可以理解为这个过程就是马尔可夫过程

说明:当前状态S1到下一个状态S22只是其中一个路径,到下一状态还有可能是S21.  S23 等等。。。 依此类推

大脑可以想象有一个状态树。

具体例子 - 天气预测

假设我们只考虑“晴天”和“雨天”两种状态,那么明天的天气只依赖于今天的天气,而与昨天及之前的天气无关。如果今天是晴天,那么明天是晴天的概率是0.9,是雨天的概率是0.1;如果今天是雨天,那么明天是晴天的概率是0.5,是雨天的概率是0.5。这就构成了一个马尔可夫过程。

具体例子 - 消灭星星游戏

消灭星星游戏,初始状态可点击状态20多种,随机决策点击一个,会到达另一个状态。。。直到终止状态(没有2个以上相同星星了)

具体例子 - 股票

在某些理论模型中,股票的价格变动可以被看作是一个马尔可夫过程。也就是说,股票的未来价格只依赖于当前的价格,而与过去的价格无关。

 ====================================================

看到强化学习相关文章,总是能看到马尔可夫决策过程,技术名词为啥?

其实强化学习或者机器学习还没有火的时候,其实有很多相关算法,

比如经常使用DFS,BFS寻找最优解,如果状态比较多, 会采用aplha-beta剪枝算法,  A*搜索算法,会使用估计函数,找最优解

其实alpha-beta剪枝 和 A*之类算法里的评价函数等等都是一种决策,按照强化学习里的知识,其实是值函数,是一种确定性策略

其实有很多状态不太好评价好不好,这个时候蒙特卡罗法就派上了用场。随机模拟

==============================================

为什么总是在强化学习相关文章总是出现这种技术名词?

任何技术的出现一定是解决某种或者某类问题的,强化学习也不例外。 强化学习技术的出现是为了帮助人更好决策,使其达到比较好的目标。比如围棋,消灭星星,斗地主等等

消灭星星要处理的状态很多,用传统算法,容易内存爆炸,只能探索7-8层次,探索更多层次需要耗费更多时间以及更多硬件资源。

强化学习就可以解决这种问题,用一个训练好的网络模型去决策

 

 

 

 

posted @ 2023-11-16 22:39  Please Call me 小强  阅读(22)  评论(0编辑  收藏  举报