什么是马尔可夫过程?
假设有一个过程: 状态S1 -> 状态S22 -> 状态S33 -> 状态S
如果上面的过程加一个条件,下一个状态只与当前状态有关, 那么可以理解为这个过程就是马尔可夫过程
说明:当前状态S1到下一个状态S22只是其中一个路径,到下一状态还有可能是S21. S23 等等。。。 依此类推
大脑可以想象有一个状态树。
具体例子 - 天气预测
假设我们只考虑“晴天”和“雨天”两种状态,那么明天的天气只依赖于今天的天气,而与昨天及之前的天气无关。如果今天是晴天,那么明天是晴天的概率是0.9,是雨天的概率是0.1;如果今天是雨天,那么明天是晴天的概率是0.5,是雨天的概率是0.5。这就构成了一个马尔可夫过程。
具体例子 - 消灭星星游戏
消灭星星游戏,初始状态可点击状态20多种,随机决策点击一个,会到达另一个状态。。。直到终止状态(没有2个以上相同星星了)
具体例子 - 股票
在某些理论模型中,股票的价格变动可以被看作是一个马尔可夫过程。也就是说,股票的未来价格只依赖于当前的价格,而与过去的价格无关。
====================================================
看到强化学习相关文章,总是能看到马尔可夫决策过程,技术名词为啥?
其实强化学习或者机器学习还没有火的时候,其实有很多相关算法,
比如经常使用DFS,BFS寻找最优解,如果状态比较多, 会采用aplha-beta剪枝算法, A*搜索算法,会使用估计函数,找最优解
其实alpha-beta剪枝 和 A*之类算法里的评价函数等等都是一种决策,按照强化学习里的知识,其实是值函数,是一种确定性策略
其实有很多状态不太好评价好不好,这个时候蒙特卡罗法就派上了用场。随机模拟
==============================================
为什么总是在强化学习相关文章总是出现这种技术名词?
任何技术的出现一定是解决某种或者某类问题的,强化学习也不例外。 强化学习技术的出现是为了帮助人更好决策,使其达到比较好的目标。比如围棋,消灭星星,斗地主等等
消灭星星要处理的状态很多,用传统算法,容易内存爆炸,只能探索7-8层次,探索更多层次需要耗费更多时间以及更多硬件资源。
强化学习就可以解决这种问题,用一个训练好的网络模型去决策