不吃腊肉的猫

2018年10月24日

Reinforcement Learning: An Introduction读书笔记(4)--动态规划

摘要： > 目录 < Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iteration Value Iteration Asynchronous Dynamic Programming Genera 阅读全文

posted @ 2018-10-24 15:03 不吃腊肉的猫阅读(625) 评论(0) 推荐(0) 编辑

2018年10月23日

Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs

摘要： > 目录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Value Functions Optimal Policies and Optimal Value Functions > 阅读全文

posted @ 2018-10-23 16:00 不吃腊肉的猫阅读(372) 评论(0) 推荐(0) 编辑

2018年10月22日

Reinforcement Learning: An Introduction读书笔记(2)--多臂机

摘要： > 目录 < k-armed bandit problem Incremental Implementation Tracking a Nonstationary Problem Initial Values (*) Upper-Confidence-Bound Action Selection( 阅读全文

posted @ 2018-10-22 14:02 不吃腊肉的猫阅读(525) 评论(0) 推荐(0) 编辑

Reinforcement Learning: An Introduction读书笔记(1)--Introduction

摘要： > 目录 < learning & intelligence 的基本思想 RL的定义、特点、四要素与其他learning methods、evolutionary methods的比较例子(井字棋 tic-tac-toe)及早期发展史 > 笔记 < learning & intelligen 阅读全文

posted @ 2018-10-22 14:02 不吃腊肉的猫阅读(553) 评论(0) 推荐(0) 编辑

2018年10月10日

No.3 数组中重复的数字 (P39)

摘要：题目1：找出数组中重复的数字【题目描述】在一个长度为n的数组里的所有数字都在0到n-1的范围内。数组中某些数字是重复的，但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。例如，如果输入长度为7的数组{2,3,1,0,2,5,3}，那么对应的输出是重复的数字阅读全文

posted @ 2018-10-10 13:38 不吃腊肉的猫阅读(172) 评论(0) 推荐(0) 编辑

2018年10月9日

Python 字典(Dictionary) 基本操作

摘要： Python字典是一种可变容器模型，可存储任意类型对象：如字符串、数字、元组等。它以键值对(key-value)的形式存在，因此相当于Hashmap在python中的实现。 §1. 创建字典字典由键和对应值成对组成。示例如下：说明： >> 每个key与value用冒号隔开，每对key-value 阅读全文

posted @ 2018-10-09 22:58 不吃腊肉的猫阅读(682) 评论(0) 推荐(0) 编辑

[LeetCode] 1. Two Sum 两数之和

摘要： Part 1. 题目描述 (easy) Given an array of integers, return indices of the two numbers such that they add up to a specific target. You may assume that each 阅读全文

posted @ 2018-10-09 22:38 不吃腊肉的猫阅读(172) 评论(0) 推荐(0) 编辑

不吃腊肉的猫

公告