摘要:
无模型的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 动态规划算法需要马尔可夫决策过程是已知的(状态转移函数、奖励函数已知),智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。 现实通常并非如此,环境已知恰恰是很少见的。所以这里来看看「无模型的强化学 阅读全文
摘要:
基于动态规划的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 在马尔可夫决策过程 环境模型已知(也就是状态转移函数P、奖励函数r已知)的情况下,我们可以通过 「动态规划」 求得马尔可夫决策过程的最优策略 \(\pi^*\) 。 1. 动态规划 对于做过算法题目的 阅读全文
摘要:
马尔可夫决策过程 个人在学习「马尔可夫过程」时(基于这本教材,强烈推荐),做了些总结,并将遇到了一些感到困惑自我解答了,在此整理并记录一下。 1. 马尔可夫性质 简单的一句话:当前状态 只取决于上一时刻 的状态。这个视频很生动地解释了这一性质。 2. 马尔可夫过程 「马尔可夫过程」也叫「马尔可夫链」 阅读全文
摘要:
A*搜索算法的更多内容 A*算法,也许你会习惯称它为「A*寻路算法」。许多人大概是因寻路——尤其是「网格地图」寻路认识它的,网上很多教程也是以网格地图为例讲解它的算法实现。这导致了许多人在遇到同样用了A*算法的地方,例如GOAP或者基于八叉树的立体空间寻路时会一头雾水:A*算法原来有这么多「变种」吗 阅读全文
摘要:
游戏AI的LOD控制 这次我们来一同看看AI LOD的一个另类控制技术,如果你对AI LOD一无所知也没关系,本文会为你们做个科普。但请注意,本文着重讨论其思想, 没有讲代码细节(因为很多涉及数学,有一定门槛),具体实现你们可以参考文末附带的项目(代码都在里面),或者去看看原论文。 LOD的概念 提 阅读全文
摘要:
神经网络训练中的问题 神经网络在数据之海中打捞规律,自成模型。这个过程全权由电脑完成,也因此我们担心它是否是一种泛化的模式,在其它「海域」继续工作时,它能否也能得到正确的结果?如何发现 可以泛化的模式 是机器学习的根本问题。 通常,模型越复杂、训练样本越少,它的泛化能力就会受到考验: 可调整参数的数 阅读全文
摘要:
游戏AI行为决策(特别篇)——MLP(附代码与项目) 你一定听说过神经网络的大名,你有想过将它用于游戏AI的行为决策上吗?其实在(2010年发布的)《最高指挥官2》中就有应用了,今天请允许我班门弄斧一番,与大家一同用C#实现最经典的神经网络——多层感知机(Multilayer Perceptron, 阅读全文
摘要:
游戏AI行为决策——GOAP(附代码与项目) 新的一年即将到来,感觉还剩一种常见的游戏AI决策方法不讲的话,有些过意不去。就在这年的尾巴与大家一起交流下「目标导向型行为规划(GOAP)」吧! 另外,我觉得只是讲代码实现而没有联系具体项目,可能还是不容易理解的。所以这次我会在文末附上一个由本文所述代码 阅读全文
摘要:
游戏AI行为决策——HTN 前言 Hierarchical Task Network(分层任务网络),简称HTN,与行为树、GOAP一样,也是一种行为决策方法。在《地平线:零之曙光》、《变形金刚:塞伯坦的陨落》中都有用它来制作游戏敌人的AI (我一个都没玩过捏。比起其它行为决策方法,HTN有个十分鲜 阅读全文
摘要:
游戏AI行为决策——行为树 前言 行为树,是目前游戏中应用较为广泛的一种行为决策模型。这离不开它成熟的可视化编辑工具,例如Unity商城中的「Behaviour Designer」,甚至是虚幻引擎也自带此类编辑工具。而且它的设计逻辑并不复杂,其所利用的树状结构,很符合人的思考方式。 接下来,我们会先 阅读全文