摘要: 一、决策树概念 决策树是一种预测模型,代表的是对象属性与对象值之间的映射关系;决策树是一种树形结构, 其中每个内部节点表示一个属性的测试,每个分支表示一个测试输出,每个叶节 点代表一种类别;决策树是一种非常常用的有监督的分类算法。 决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按 阅读全文
posted @ 2020-03-22 21:18 lonepine 阅读(412) 评论(0) 推荐(0)
摘要: 随机森林和adaboost都是集成学习比较经典的模型 随机森林和adaboost所使用的思想不同 随机森林运用bagging的思想,相当于并行,利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候决定测试样本的最终类别 adaboost运用boosting的思想,是一种迭代算法,针对同一 阅读全文
posted @ 2020-03-15 20:17 lonepine 阅读(634) 评论(0) 推荐(0)
摘要: spark性能优化点 一、分配更多的资源 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的, 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调 优的时候,首先第一步,就是要来调节优的资源配置;在这个基础之上 阅读全文
posted @ 2020-03-09 12:17 lonepine 阅读(193) 评论(0) 推荐(0)
摘要: 一、数据仓库的基本概念 1、数据仓库 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库并不“生产”任何数据,自身也不需要“消费”任何的数 阅读全文
posted @ 2020-02-26 19:52 lonepine 阅读(286) 评论(1) 推荐(1)