摘要: RDD缓存: RDD缓存是spark中的重要特性。默认情况下,RDD的内容是临时的,每个RDD只能使用一次,如果某个RDD需要重复使用则需要从最开始的父RDD重新计算,计算量较大且耗时,使用缓存或持久化后,第一次计算出RDD内容之后,可以将每个RDD的结果缓存在集群的内存或磁盘中,后续调用以来该RD 阅读全文
posted @ 2020-03-22 23:00 佚名博主 阅读(297) 评论(0) 推荐(0)
摘要: 随机森林 随机森林是集成算法的一种,是将多个决策树集成在一起通过对每棵树的结果进行表决进而组成一个强分类器的方法,可以处理分类问题及回归问题。 随机森林的构建过程: 从样本集中用采样选出N个样本; 从所有属性中随机选择M个属性,选择出最佳分割属性作为节点创建决策树; 重复执行以上两步,重复次数即为决 阅读全文
posted @ 2020-03-15 21:35 佚名博主 阅读(353) 评论(0) 推荐(0)
摘要: spark运行原理: spark作业提交后,会根据我们设置的参数启动一个占有一定内存和CPU core数的Driver。Driver进程启动后会现象其群管理器申请spark作业运行所需要的资源(Executor进程)。yarn集群管理器会根据设置的资源参数在每个节点上启动一定数量的Executor进 阅读全文
posted @ 2020-03-08 21:47 佚名博主 阅读(189) 评论(0) 推荐(0)
摘要: HBase是Hadoop的一个子项目,用JAVA语言实现,是建立在HDFS的基础上的非关系型分布式数据库,目标是通过水平扩展的方式处理非常庞大的表。值得注意的是,HBase并非结构化数据库,而是介于非关系型数据库(nosql)与关系型数据库(RDBMS)之间,仅能存储非结构化数据和半结构化数据。 为 阅读全文
posted @ 2020-02-29 23:12 佚名博主 阅读(276) 评论(0) 推荐(0)
摘要: 过程中涉及的角色及其作用: zookeeper: 保证集群中只有一个master 监控region server的生存状态(是否下线或丢失),实时通知master 存储元数据信息以及region server的寻址入口 master: 为失效或下线的region重新分配region server,相 阅读全文
posted @ 2020-02-26 21:21 佚名博主 阅读(416) 评论(0) 推荐(0)