lonepine

2020年3月22日

摘要：一、决策树概念决策树是一种预测模型，代表的是对象属性与对象值之间的映射关系；决策树是一种树形结构，其中每个内部节点表示一个属性的测试，每个分支表示一个测试输出，每个叶节点代表一种类别；决策树是一种非常常用的有监督的分类算法。决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按阅读全文

posted @ 2020-03-22 21:18 lonepine 阅读(412) 评论(0) 推荐(0)

2020年3月15日

随机森林和adaboost对比

摘要：随机森林和adaboost都是集成学习比较经典的模型随机森林和adaboost所使用的思想不同随机森林运用bagging的思想，相当于并行，利用随机的方式将许多决策树组合成一个森林，每个决策树在分类的时候决定测试样本的最终类别 adaboost运用boosting的思想，是一种迭代算法，针对同一阅读全文

posted @ 2020-03-15 20:17 lonepine 阅读(634) 评论(0) 推荐(0)

2020年3月9日

spark的性能优化

摘要： spark性能优化点一、分配更多的资源它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节优的资源配置；在这个基础之上阅读全文

posted @ 2020-03-09 12:17 lonepine 阅读(193) 评论(0) 推荐(0)

2020年2月26日

hive

摘要：一、数据仓库的基本概念 1、数据仓库英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。数据仓库并不“生产”任何数据，自身也不需要“消费”任何的数阅读全文

posted @ 2020-02-26 19:52 lonepine 阅读(286) 评论(1) 推荐(1)

公告