什么是马尔可夫过程？

假设有一个过程: 状态S1 -> 状态S22 -> 状态S33 -> 状态S

如果上面的过程加一个条件，下一个状态只与当前状态有关， 那么可以理解为这个过程就是马尔可夫过程

说明：当前状态S1到下一个状态S22只是其中一个路径，到下一状态还有可能是S21. S23 等等。。。依此类推

大脑可以想象有一个状态树。

具体例子 - 天气预测

假设我们只考虑“晴天”和“雨天”两种状态，那么明天的天气只依赖于今天的天气，而与昨天及之前的天气无关。如果今天是晴天，那么明天是晴天的概率是0.9，是雨天的概率是0.1；如果今天是雨天，那么明天是晴天的概率是0.5，是雨天的概率是0.5。这就构成了一个马尔可夫过程。

具体例子 - 消灭星星游戏

消灭星星游戏，初始状态可点击状态20多种，随机决策点击一个，会到达另一个状态。。。直到终止状态（没有2个以上相同星星了）

具体例子 - 股票

在某些理论模型中，股票的价格变动可以被看作是一个马尔可夫过程。也就是说，股票的未来价格只依赖于当前的价格，而与过去的价格无关。

====================================================

看到强化学习相关文章，总是能看到马尔可夫决策过程，技术名词为啥？

其实强化学习或者机器学习还没有火的时候，其实有很多相关算法，

比如经常使用DFS，BFS寻找最优解，如果状态比较多，会采用aplha-beta剪枝算法， A*搜索算法，会使用估计函数，找最优解

其实alpha-beta剪枝和 A*之类算法里的评价函数等等都是一种决策，按照强化学习里的知识，其实是值函数，是一种确定性策略

其实有很多状态不太好评价好不好，这个时候蒙特卡罗法就派上了用场。随机模拟

==============================================

为什么总是在强化学习相关文章总是出现这种技术名词？

任何技术的出现一定是解决某种或者某类问题的，强化学习也不例外。强化学习技术的出现是为了帮助人更好决策，使其达到比较好的目标。比如围棋，消灭星星，斗地主等等

消灭星星要处理的状态很多，用传统算法，容易内存爆炸，只能探索7-8层次，探索更多层次需要耗费更多时间以及更多硬件资源。

强化学习就可以解决这种问题，用一个训练好的网络模型去决策

posted @ 2023-11-16 22:39 Please Call me 小强阅读(22) 评论(0) 编辑收藏举报

刷新页面返回顶部

Please Call me 小强