机器人技术课堂笔记-zjj2016.11.10

问题求解和机器博弈

问题求解与人工智能

问题求解；

决策-博弈(各主体存在利益冲突，求解其矛盾，解释和预测)

博弈论：

历史：
冯诺依曼、摩根斯坦
约翰纳什：纳什均衡

computer game

概念：基于博弈论，用人工智能方法解决博弈中的问题
里程碑：各种牌类游戏

分类：

完备信息博弈：棋盘上子的位置都公开/非完备：扑克
确定性/非确定性：存在其他因素改变时间方向：麻将开局骰子
双人/多人
各种棋牌对应的计算机搜索节点规模，德州扑克E1755;围棋E160当做非完备处理

领域研究框架

人类如何进行博弈游戏
观察当前局势
有哪些合法的走步
哪个最有利
执行

机器

人界界面-数据结构
走法生成器-规则解释器
搜索引擎-估值核心（经验技巧灵感-思考能力）（机器学习方法-博弈树搜索方法:对比）（如果需要很长时间收敛，eg3年，可能已经软硬件迭代更新了）
非完备信息处理
抽样信息空间，蒙特卡洛抽样
走步执行器

主流解决方案

博弈树搜索方法
机器学习方法
蒙特卡洛抽样
德州扑克AAAI-ACPC、四国军棋（顶级的复杂性）

蒙特卡洛博弈树搜索方法MCTS：

人工智能：alpha-beta剪枝历史启发算法那
动态：不先深也不先广
选择
扩展
抽样
反向传播

感觉我毕设那个是蒙特卡洛抽样啊
概率来自于历史上布局的统计
MCTS节点扩展选择策略:UCT算法 2009法国
XI+这个节点被计算过的次数
被选到的次数越多，它的权值越大，开发-探索选择倾向，
开局阶段应该更广泛探索，进入后盘像更深的方向探索
风险模型
风险优势、收益优势
正向风险（买彩票，正向风险高所以买）负向风险（一瓶药里只有一颗毒药不吃）
对手建模方法
非完备信息的牌类
进攻型防守型的对手，固定位置步子的习惯峰值有很不同的。
强化学习方法
CFR方法通过反复迭代和训练 2015 science 二人受限（加注只能加固定值、跟牌、弃牌）已经解决阿尔伯塔 10^14更搞笑的存储方法，
可以应用了，原来是10^12
ACPC AAAI IJCAI
非完备信息博弈专题
2013 多人德州4
哈工大，hit-sz
人工智能目标
想出这个玩法
数值设计，每一关的摆放怎样的规律。关卡的失败率曲线，人工智能模拟用户行为，驴子前面胡萝卜vs大规模测试？10个人每个人3000盘、慢不准
腾讯、博雅
加拿大阿尔伯他大学机器博弈研究中心
jonathan schaeffer
和游戏厂商合作FIFA系列足球，RPG，cs，
AIIDE暴雪的即时战略大赛
线上扑克教学网站
花钱学到了技巧再去赌博

主要研究问题

核心算法

posted @ 2016-01-27 17:39 dunfentiao 阅读(248) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部