随笔列表第2页 - 下士闻道

test

摘要： GBDT，是Gradient Boost Decision Tree的缩写，是Boosting家族的一元，即通过训练前后依赖的一组的学习器，组成一个强学习器，对外提供服务 GBDT底层是决策树，这个从名字可以看出来，而且用的是CART算法；所以一定要了阅读全文

posted @ 2020-01-20 20:35 下士闻道阅读(166) 评论(0) 推荐(0) 编辑

有偏估计和无偏估计

摘要：无偏和有偏本质来讲，无偏/无偏估计是指估算统计量的公式，无偏估计就是可以预见，多次采样计算的统计量（根据估算公式获得）是在真实值左右两边。类似于正态分布的钟型图形。比如对于均值估计： mean = (1/n)Σxi 一定有的比μ大，有的比μ小。那么对于有偏估计，就是多次采样，估算的统计量将会在真阅读全文

posted @ 2020-01-19 13:17 下士闻道阅读(9013) 评论(0) 推荐(0) 编辑

Spark Shuffle

摘要： Shuffle基本流程 spark shuffle从总体来讲分成两部分，shuffle write和shuffle reader，如下图所示，看到这里，就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle，broadcast好歹还是内存操作，网络上大一点压力（每个节点阅读全文

posted @ 2020-01-19 08:17 下士闻道阅读(893) 评论(0) 推荐(0) 编辑

Adaboost算法推导

摘要： Adaboost（Adaptive boosting)是boosting（提升）家族的重要算法。boosting家族算法的核心是串行训练学习器，可以理解为"站在巨人的肩膀"，后一个学习器的学习是基于前一个学习器的学习基础之上的，对应的是bagging学习器，学习器之间没有依赖关系。把握住Adabo 阅读全文

posted @ 2020-01-14 19:37 下士闻道阅读(1010) 评论(0) 推荐(0) 编辑

Spark优化 – 基础篇

摘要：大数据调优总体方向：CPU，内存以及IO（Disk，Network）三个方面来进行。对于多次使用的数据（RDD/DataFrame)，通过cache()或者persis()来进行缓存，避免每一次都从数据源获取（减少磁盘IO）；系统资源优化如下参数可以进行调优（可以参见附录中介绍的spark和y 阅读全文

posted @ 2020-01-14 18:30 下士闻道阅读(495) 评论(0) 推荐(0) 编辑

决策树 – 回归

摘要：解决问题实现基于特征范围的树状遍历的回归。解决方案通过寻找样本中最佳的特征以及特征值作为最佳分割点，构建一棵二叉树。选择最佳特征以及特征值的原理就是通过满足函数最小。其实选择的过程本质是对于训练样本的区间的分割，基于区间计算均值，最终区域的样本均值即为预测值。在预测的时候，将会根据提供的样本阅读全文

posted @ 2020-01-08 19:15 下士闻道阅读(3993) 评论(0) 推荐(0) 编辑

HBase的文件合并（minor/major compact）

摘要： Minor Compact Minor Compact是指少量HFile文件按照Minor Compact规则进行合并；它的正常流程是这样的，探测到有新的文件刷进来（比如因为memstore的flush，当然可以直接写入HFile而跳过memstore，比如Bulk写入），此时Region Serv 阅读全文

posted @ 2020-01-05 09:51 下士闻道阅读(2826) 评论(0) 推荐(0) 编辑

HBase的列式存储

摘要：为什么要选择列式存储行式存储和列式存储主要是在物理存储的选择上面，这里主要是选择从实体的完整性角度进行存储，还是从实体特征维度进行存储，行式存储就是以实体为单位进行存储，在物理存储上，一个实体（的特征属性）紧挨着另外一个实体；列式存储就是从实体特征维度进行存储，通常是以列为物理存储单元，这种存储模阅读全文

posted @ 2020-01-05 08:09 下士闻道阅读(1484) 评论(0) 推荐(0) 编辑

正态分布，qqplot以及WS检测

摘要：正态分布标准正态分布，查表值其实是标准差的值对应的到0点的面积，或者说是概率。标准差的计算是通过（X-μ）/ Δ，下图是标准正态分布图。理解正态分布表很重要，正态分布表记录的是标准正态分布表，即: X~N(0, 1) 描述的是均值为0，方差为1的正态分布，要理解正态分布表，首先理解正态分布图，如阅读全文

posted @ 2020-01-04 20:11 下士闻道阅读(3300) 评论(0) 推荐(0) 编辑

什么是归一化和标准化

摘要：归一化（Rescaling，max-min normalization，有的翻译为离差标准化）是指将数据缩放到[0,1]范围内，公式如下： X' = [X - min(X)] / [max(X) - min(X)] 标准化（Standardization, Z-score normalization 阅读全文

posted @ 2020-01-01 23:33 下士闻道阅读(6119) 评论(0) 推荐(0) 编辑

下士闻道