会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
mxo
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2016年7月12日
GBDT
摘要: GBDT(Gradient Boosting Decision Tree) GBDT是一个应用很广泛的算法,可以用来做分类、回归(可用于二分类问题,设定阈值,大于阈值为正例,反之为负例)。其是一个框架,里面可以套入很多不同的算法,GBDT中的基函数都是回归树,回归树结果是会得一个预测值,所以结果累加
阅读全文
posted @ 2016-07-12 14:35 xmeo
阅读(786)
评论(0)
推荐(0)
2016年6月22日
mac安装xgboost
摘要: 官网安装说明地址:http://xgboost.readthedocs.io/en/latest/build.html#building-on-osx 单线程版: 第一步:clone代码: git clone --recursive https://github.com/dmlc/xgboost 第
阅读全文
posted @ 2016-06-22 14:11 xmeo
阅读(375)
评论(0)
推荐(0)
2016年6月12日
Huffman编码与n-gram模型
摘要: Huffman树(最优二叉树): Huffman树是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。 构建huffman树: 输入 符号集合 S = { s 1 , s 2 , ⋯ ,
阅读全文
posted @ 2016-06-12 11:35 xmeo
阅读(688)
评论(0)
推荐(0)
2016年6月7日
Adaboost
摘要: 一.Boost模型融合: Boosting算法是一种把若干个分类器整合为一个分类器的方法,如果一个问题存在弱分类器,则可以通过提升的办法得到强分类器,可以用于回归和分类问题。它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中;如果一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度
阅读全文
posted @ 2016-06-07 10:45 xmeo
阅读(221)
评论(0)
推荐(0)
2016年5月1日
拉格朗日乘子法与KKT
摘要: 通常我们需要求解的最优化问题有如下几类: (i) 无约束优化问题,可以写为: min f(x); (ii) 有等式约束的优化问题,可以写为: min f(x); s.t. hi(x) = 0; i =1, ..., n (iii) 有不等式约束的优化问题,可以写为: min f(x); s.t. g
阅读全文
posted @ 2016-05-01 14:03 xmeo
阅读(614)
评论(0)
推荐(0)
2016年4月20日
pandas nan & inf
摘要: pandas值替换 data.replace(-np.inf,0,inplace=True) data.fillna(0,inplace=True) 一定要加,inplace=True 否则可能不起作用
阅读全文
posted @ 2016-04-20 10:08 xmeo
阅读(2861)
评论(0)
推荐(0)
2016年4月15日
模型构建与调优
摘要: 一.模型选择 常见的模型:分类模型, 回归模型, 聚类模型, 强化学习 等. 模型评估:损失函数小的模型是好的模型 损失函数: 我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其
阅读全文
posted @ 2016-04-15 16:40 xmeo
阅读(419)
评论(0)
推荐(0)
2016年4月10日
损失函数,梯度下降与牛顿法
摘要: 损失函数 我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度,
阅读全文
posted @ 2016-04-10 14:36 xmeo
阅读(1054)
评论(0)
推荐(0)
2016年3月30日
sklearn之crossvalidation
摘要: k折交叉验证 验证损失函数对模型好坏的评价 由图可以得知,平均方差越低越好,因此选择13~18左右的K值会最好。
阅读全文
posted @ 2016-03-30 17:06 xmeo
阅读(426)
评论(0)
推荐(0)
2016年3月27日
特征工程
摘要: 特征工程: 一.数据处理 1.数据收集 埋点,mysql,hdfs,日志等收集。 2.数据清洗 a.不符合常理数据 b.超出统计值的数据 c.缺省值极多的字段 3.数据采样 (1)正样本大于负样本,且相差很大 下采样(截取与负样本量相近的正样本) (2)正样本大于负样本,相差不大 a.采集跟多数据
阅读全文
posted @ 2016-03-27 11:17 xmeo
阅读(374)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
下一页
公告