会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
下路派出所
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
7
8
9
10
11
12
13
14
15
···
27
下一页
2018年11月12日
GBDT分类和回归例子
摘要:
阅读全文
posted @ 2018-11-12 22:21 下路派出所
阅读(1621)
评论(0)
推荐(0)
2018年11月7日
词性标注 HMM
摘要: 1.给定语料,统计语料中的词性为N,词组为M。 2.HMM关注3个参数 a.初始化概率 b.状态转移矩阵 N*N c.观测状态概率矩阵 N*M 3.状态转移矩阵:词A的词性为词性a,词B的词性为词性b,AB为相连词,从给定的语料中统计从词性a转换到词性b出现的次数/词性a转换到所有可能转换的词性的次
阅读全文
posted @ 2018-11-07 19:49 下路派出所
阅读(364)
评论(0)
推荐(0)
2018年11月2日
kd树
摘要: 算法介绍: 算法原理: 搜索kd树: 算法介绍: 算法原理:
阅读全文
posted @ 2018-11-02 12:00 下路派出所
阅读(171)
评论(0)
推荐(0)
2018年10月28日
分词原理
摘要: 1. 分词的基本原理 现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:"小明/来到/荔湾/区",而不是“小明/来到/荔/湾区”。那么如何做到这一点呢? 从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句
阅读全文
posted @ 2018-10-28 14:20 下路派出所
阅读(216)
评论(0)
推荐(0)
2018年10月25日
Word2vec 理解
摘要: 1.有DNN做的word2vec,取隐藏层到softmax层的权重为词向量,softmax层的叶子节点数为词汇表大小 2.霍夫曼树:左边走 sigmoid(当前节点的词向量*当前节点的参数) 右边走 1-sigmoid(当前节点的词向量*当前节点的参数),叶子节点为词汇表所有词,然后求根节点到叶子节
阅读全文
posted @ 2018-10-25 18:11 下路派出所
阅读(259)
评论(0)
推荐(0)
2018年10月21日
seq2seq attention
摘要: 1.seq2seq:分为encoder和decoder a.在decoder中,第一时刻输入的是上encoder最后一时刻的状态,如果用了双向的rnn,那么一般使用逆序的最后一个时刻的输出(网上说实验结果比较好) b.每一时刻都有一个输出,即:[batch_size, decoder_output_
阅读全文
posted @ 2018-10-21 23:51 下路派出所
阅读(964)
评论(0)
推荐(0)
2018年10月1日
xgboost与gbdt区别
摘要: 1.基分类器的选择:传统GBDT以CART作为基分类器,XGBoost还支持线性分类器,这个时候XGBoost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。 2.二阶泰勒展开:传统GBDT在优化时只用到一阶导数信息;XGBoost则对代价函数进行了二阶泰勒展开,同时用
阅读全文
posted @ 2018-10-01 19:50 下路派出所
阅读(2331)
评论(0)
推荐(0)
GBDT多分类示例
摘要: 相当于每次都是用2分类,然后不停的训练,最后把所有的弱分类器来进行汇总 Iris数据集 这是一个有6个样本的三分类问题。我们需要根据这个花的花萼长度,花萼宽度,花瓣长度,花瓣宽度来判断这个花属于山鸢尾,杂色鸢尾,还是维吉尼亚鸢尾。具体应用到gbdt多分类算法上面。我们用一个三维向量来标志样本的lab
阅读全文
posted @ 2018-10-01 16:12 下路派出所
阅读(1344)
评论(1)
推荐(0)
2018年9月29日
GBDT理解
摘要: Gradient boosting decision tree(使用的基分类器是CART回归树,不适用CART分类树) 还有一遍博客讲的很好:https://www.cnblogs.com/pinard/p/6140514.html 介绍: 首先gbdt 是通过采用加法模型(即基函数的线性组合),以
阅读全文
posted @ 2018-09-29 18:54 下路派出所
阅读(649)
评论(0)
推荐(0)
ID3、C4.5和CART决策树对比
摘要: ID3决策树:利用信息增益来划分节点 信息熵是度量样本集合纯度最常用的一种指标。假设样本集合D中第k类样本所占的比重为pk,那么信息熵的计算则为下面的计算方式 当这个Ent(D)的值越小,说明样本集合D的纯度就越高 有了信息熵,当我选择用样本的某一个属性a来划分样本集合D时,就可以得出用属性a对样本
阅读全文
posted @ 2018-09-29 17:17 下路派出所
阅读(2342)
评论(0)
推荐(0)
上一页
1
···
7
8
9
10
11
12
13
14
15
···
27
下一页
公告