机器人技术课堂笔记-zjj2016.11.10
问题求解和机器博弈
问题求解与人工智能
问题求解;
决策-博弈(各主体存在利益冲突,求解其矛盾,解释和预测)
博弈论:
历史:
冯诺依曼、摩 根斯坦
约翰纳什:纳什均衡
computer game
概念:基于博弈论,用人工智能方法解决博弈中的问题
里程碑:各种牌类游戏
分类:
- 完备信息博弈:棋盘上子的位置都公开/非完备:扑克
- 确定性/非确定性:存在其他因素改变时间方向:麻将开局骰子
- 双人/多人
- 各种棋牌对应的计算机搜索节点规模,德州扑克E1755;围棋E160当做非完备处理
领域研究框架
人类如何进行博弈游戏
观察当前局势
有哪些合法的走步
哪个最有利
执行
机器
- 人界界面-数据结构
- 走法生成器-规则解释器
- 搜索引擎-估值核心(经验技巧灵感-思考能力)(机器学习方法-博弈树搜索方法:对比)(如果需要很长时间收敛,eg3年,可能已经软硬件迭代更新了)
非完备信息处理
抽样信息空间,蒙特卡洛抽样 - 走步执行器
主流解决方案
博弈树搜索方法
机器学习方法
蒙特卡洛抽样
德州扑克AAAI-ACPC、四国军棋(顶级的复杂性)
蒙特卡洛博弈树搜索方法MCTS:
人工智能:alpha-beta剪枝 历史启发算法那
动态:不先深也不先广
选择
扩展
抽样
反向传播
- 感觉我毕设那个是蒙特卡洛抽样啊
概率来自于历史上布局的统计
MCTS节点扩展选择策略:UCT算法 2009法国
XI+这个节点被计算过的次数
被选到的次数越多,它的权值越大,开发-探索选择倾向,
开局阶段应该更广泛探索,进入后盘像更深的方向探索
风险模型
风险优势、收益优势
正向风险(买彩票,正向风险高所以买)负向风险(一瓶药里只有一颗毒药不吃)
对手建模方法
非完备信息的牌类
进攻型防守型的对手,固定位置步子的习惯峰值有很不同的。
强化学习方法
CFR方法通过反复迭代和训练 2015 science 二人受限(加注只能加固定值、跟牌、弃牌) 已经解决 阿尔伯塔 10^14更搞笑的存储方法,
可以应用了,原来是10^12
ACPC AAAI IJCAI
非完备信息博弈专题
2013 多人德州4
哈工大,hit-sz
人工智能目标
想出这个玩法
数值设计,每一关的摆放怎样的规律。关卡的失败率曲线,人工智能模拟用户行为,驴子前面胡萝卜vs大规模测试?10个人每个人3000盘、慢不准
腾讯、博雅
加拿大阿尔伯他大学机器博弈研究中心
jonathan schaeffer
和游戏厂商合作FIFA系列足球,RPG,cs,
AIIDE暴雪的即时战略大赛
线上扑克教学网站
花钱学到了技巧再去赌博