摘要: > 目 录 < Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iteration Value Iteration Asynchronous Dynamic Programming Genera 阅读全文
posted @ 2018-10-24 15:03 不吃腊肉的猫 阅读(625) 评论(0) 推荐(0) 编辑
摘要: > 目 录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Value Functions Optimal Policies and Optimal Value Functions > 阅读全文
posted @ 2018-10-23 16:00 不吃腊肉的猫 阅读(372) 评论(0) 推荐(0) 编辑
摘要: > 目 录 < k-armed bandit problem Incremental Implementation Tracking a Nonstationary Problem Initial Values (*) Upper-Confidence-Bound Action Selection( 阅读全文
posted @ 2018-10-22 14:02 不吃腊肉的猫 阅读(525) 评论(0) 推荐(0) 编辑
摘要: > 目 录 < learning & intelligence 的基本思想 RL的定义、特点、四要素 与其他learning methods、evolutionary methods的比较 例子(井字棋 tic-tac-toe)及早期发展史 > 笔 记 < learning & intelligen 阅读全文
posted @ 2018-10-22 14:02 不吃腊肉的猫 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 题目1:找出数组中重复的数字 【题目描述】 在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数字是重复的,但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。 例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是重复的数字 阅读全文
posted @ 2018-10-10 13:38 不吃腊肉的猫 阅读(172) 评论(0) 推荐(0) 编辑
摘要: Python字典是一种可变容器模型,可存储任意类型对象:如字符串、数字、元组等。它以键值对(key-value)的形式存在,因此相当于Hashmap在python中的实现。 §1. 创建字典 字典由键和对应值成对组成。示例如下: 说明: >> 每个key与value用冒号隔开,每对key-value 阅读全文
posted @ 2018-10-09 22:58 不吃腊肉的猫 阅读(682) 评论(0) 推荐(0) 编辑
摘要: Part 1. 题目描述 (easy) Given an array of integers, return indices of the two numbers such that they add up to a specific target. You may assume that each 阅读全文
posted @ 2018-10-09 22:38 不吃腊肉的猫 阅读(172) 评论(0) 推荐(0) 编辑