会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
Kintoki
关注机器学习,数据挖掘,人工智能
博客园
首页
新随笔
联系
订阅
管理
2021年12月25日
DKT模型及其TensorFlow实现(Deep knowledge tracing with Tensorflow)
摘要: 2017年2月15日,谷歌举办了首届TensorFlow Dev Summit,并且发布了TensorFlow 1.0 正式版。 3月18号,上海的谷歌开发者社区(GDG)组织了针对峰会的专场回顾活动。本文是我在活动上分享的一些回顾,主要介绍了在流利说我们是如何使用TensorFlow来构建学生模型
阅读全文
posted @ 2021-12-25 10:53 Kintoki
阅读(2068)
评论(0)
推荐(0)
2016年1月9日
增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)
摘要: 接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率$P_{sa}$ 状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数。 相对的,蒙特卡罗方法的特点则有: 可以从经验中学
阅读全文
posted @ 2016-01-09 14:22 Kintoki
阅读(52004)
评论(4)
推荐(14)
2014年2月22日
增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)
摘要: 1. 蒙特卡罗方法的基本思想 蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础的方法。 一个简单的例子可以解释蒙特卡罗方法,假设我们需要计算一个不规则图形的面积,那么图形的不规
阅读全文
posted @ 2014-02-22 14:06 Kintoki
阅读(50102)
评论(3)
推荐(2)
2014年1月20日
增强学习(三)----- MDP的动态规划解法
摘要: 上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。 那么如何求解最优策略呢?基本的解法有三种: 动态规划法(dynamic program
阅读全文
posted @ 2014-01-20 10:26 Kintoki
阅读(42808)
评论(10)
推荐(9)
2014年1月14日
增强学习(二)----- 马尔可夫决策过程MDP
摘要: 1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。 马尔可
阅读全文
posted @ 2014-01-14 00:21 Kintoki
阅读(98105)
评论(22)
推荐(29)
2014年1月11日
增强学习(一) ----- 基本概念
摘要: 机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习 什么是增强学习呢? 增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。 定义: Reinforcement le
阅读全文
posted @ 2014-01-11 21:44 Kintoki
阅读(43516)
评论(0)
推荐(5)
公告