Kintoki

2021年12月25日

DKT模型及其TensorFlow实现（Deep knowledge tracing with Tensorflow）

摘要： 2017年2月15日，谷歌举办了首届TensorFlow Dev Summit，并且发布了TensorFlow 1.0 正式版。 3月18号，上海的谷歌开发者社区（GDG）组织了针对峰会的专场回顾活动。本文是我在活动上分享的一些回顾，主要介绍了在流利说我们是如何使用TensorFlow来构建学生模型阅读全文

posted @ 2021-12-25 10:53 Kintoki 阅读(2169) 评论(0) 推荐(0)

2016年1月9日

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)

摘要：接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率$P_{sa}$ 状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数。相对的，蒙特卡罗方法的特点则有：可以从经验中学阅读全文

posted @ 2016-01-09 14:22 Kintoki 阅读(52107) 评论(4) 推荐(14)

2014年2月22日

增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)

摘要： 1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法，它使用随机数（或伪随机数）来解决计算的问题，是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗，而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法，假设我们需要计算一个不规则图形的面积，那么图形的不规阅读全文

posted @ 2014-02-22 14:06 Kintoki 阅读(50187) 评论(3) 推荐(2)

2014年1月20日

增强学习（三）----- MDP的动态规划解法

摘要：上一篇我们已经说到了，增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略，使其在任意初始状态下，都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢？基本的解法有三种：动态规划法(dynamic program 阅读全文

posted @ 2014-01-20 10:26 Kintoki 阅读(42891) 评论(10) 推荐(9)

2014年1月14日

增强学习（二）----- 马尔可夫决策过程MDP

摘要： 1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可阅读全文

posted @ 2014-01-14 00:21 Kintoki 阅读(98352) 评论(22) 推荐(29)

2014年1月11日

增强学习（一） ----- 基本概念

摘要：机器学习算法大致可以分为三种： 1. 监督学习(如回归，分类) 2. 非监督学习(如聚类，降维) 3. 增强学习什么是增强学习呢？增强学习（reinforcementlearning, RL）又叫做强化学习，是近年来机器学习和智能控制领域的主要方法之一。定义: Reinforcement le 阅读全文

posted @ 2014-01-11 21:44 Kintoki 阅读(43603) 评论(0) 推荐(5)

Loading

关注机器学习，数据挖掘，人工智能

公告