上一页 1 2 3 4 5 6 ··· 70 下一页

2020年1月20日

test

摘要:   GBDT,是Gradient Boost Decision Tree的缩写,是Boosting家族的一元,即通过训练前后依赖的一组的学习器,组成一个强学习器,对外提供服务   GBDT底层是决策树,这个从名字可以看出来,而且用的是CART算法;所以一定要了 阅读全文

posted @ 2020-01-20 20:35 下士闻道 阅读(166) 评论(0) 推荐(0) 编辑

2020年1月19日

有偏估计和无偏估计

摘要: 无偏和有偏 本质来讲,无偏/无偏估计是指估算统计量的公式,无偏估计就是可以预见,多次采样计算的统计量(根据估算公式获得)是在真实值左右两边。类似于正态分布的钟型图形。比如对于均值估计: mean = (1/n)Σxi 一定有的比μ大,有的比μ小。 那么对于有偏估计,就是多次采样,估算的统计量将会在真 阅读全文

posted @ 2020-01-19 13:17 下士闻道 阅读(9013) 评论(0) 推荐(0) 编辑

Spark Shuffle

摘要: Shuffle基本流程 spark shuffle从总体来讲分成两部分,shuffle write和shuffle reader,如下图所示,看到这里,就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle,broadcast好歹还是内存操作,网络上大一点压力(每个节点 阅读全文

posted @ 2020-01-19 08:17 下士闻道 阅读(893) 评论(0) 推荐(0) 编辑

2020年1月14日

Adaboost算法推导

摘要: Adaboost(Adaptive boosting)是boosting(提升)家族的重要算法。boosting家族算法的核心是串行训练学习器,可以理解为"站在巨人的肩膀",后一个学习器的学习是基于前一个学习器的学习基础之上的,对应的是bagging学习器,学习器之间没有依赖关系。 把握住Adabo 阅读全文

posted @ 2020-01-14 19:37 下士闻道 阅读(1010) 评论(0) 推荐(0) 编辑

Spark优化 – 基础篇

摘要: 大数据调优总体方向:CPU,内存以及IO(Disk,Network)三个方面来进行。 对于多次使用的数据(RDD/DataFrame),通过cache()或者persis()来进行缓存,避免每一次都从数据源获取(减少磁盘IO); 系统资源优化 如下参数可以进行调优(可以参见附录中介绍的spark和y 阅读全文

posted @ 2020-01-14 18:30 下士闻道 阅读(495) 评论(0) 推荐(0) 编辑

2020年1月8日

决策树 – 回归

摘要: 解决问题 实现基于特征范围的树状遍历的回归。 解决方案 通过寻找样本中最佳的特征以及特征值作为最佳分割点,构建一棵二叉树。选择最佳特征以及特征值的原理就是通过满足函数最小。其实选择的过程本质是对于训练样本的区间的分割,基于区间计算均值,最终区域的样本均值即为预测值。 在预测的时候,将会根据提供的样本 阅读全文

posted @ 2020-01-08 19:15 下士闻道 阅读(3993) 评论(0) 推荐(0) 编辑

2020年1月5日

HBase的文件合并(minor/major compact)

摘要: Minor Compact Minor Compact是指少量HFile文件按照Minor Compact规则进行合并;它的正常流程是这样的,探测到有新的文件刷进来(比如因为memstore的flush,当然可以直接写入HFile而跳过memstore,比如Bulk写入),此时Region Serv 阅读全文

posted @ 2020-01-05 09:51 下士闻道 阅读(2826) 评论(0) 推荐(0) 编辑

HBase的列式存储

摘要: 为什么要选择列式存储 行式存储和列式存储主要是在物理存储的选择上面,这里主要是选择从实体的完整性角度进行存储,还是从实体特征维度进行存储,行式存储就是以实体为单位进行存储,在物理存储上,一个实体(的特征属性)紧挨着另外一个实体;列式存储就是从实体特征维度进行存储,通常是以列为物理存储单元,这种存储模 阅读全文

posted @ 2020-01-05 08:09 下士闻道 阅读(1484) 评论(0) 推荐(0) 编辑

2020年1月4日

正态分布,qqplot以及WS检测

摘要: 正态分布 标准正态分布,查表值其实是标准差的值对应的到0点的面积,或者说是概率。标准差的计算是通过(X-μ)/ Δ,下图是标准正态分布图。 理解正态分布表很重要,正态分布表记录的是标准正态分布表,即: X~N(0, 1) 描述的是均值为0,方差为1的正态分布,要理解正态分布表,首先理解正态分布图,如 阅读全文

posted @ 2020-01-04 20:11 下士闻道 阅读(3300) 评论(0) 推荐(0) 编辑

2020年1月1日

什么是归一化和标准化

摘要: 归一化(Rescaling,max-min normalization,有的翻译为离差标准化)是指将数据缩放到[0,1]范围内,公式如下: X' = [X - min(X)] / [max(X) - min(X)] 标准化(Standardization, Z-score normalization 阅读全文

posted @ 2020-01-01 23:33 下士闻道 阅读(6119) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 70 下一页

导航