摘要: spark性能优化点 1. 分配更多的资源 分配更多的资源: 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的, 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调 优的时候,首先第一步,就是要来调节最优的资 阅读全文
posted @ 2020-03-08 21:54 Pyoung 阅读(223) 评论(0) 推荐(0)
摘要: 随机森林算法: 随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候决定测试样本的最终类别 在Bagging策略的基础上进行修改后的一种算法 从样本集中用Bootstrap采样选出n个样本; 从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建决策树; 重复以上两步m次, 阅读全文
posted @ 2020-03-15 21:13 Pyoung 阅读(2468) 评论(0) 推荐(0)
摘要: Spark核心组件 Driver Spark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责: 将用户程序转化为作业(job); 在Executor之间调度任务(task); 跟踪Executor的执行情况; 通过UI展示查询运行 阅读全文
posted @ 2020-03-01 20:59 Pyoung 阅读(176) 评论(0) 推荐(0)