摘要: MapReduce入门 前言: MapReduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在Hadoop集群上。 MapReduce 思想核心是"分而治之",适用于大量复杂的任务处理场景。 Map负责"分",即把复杂的任务 阅读全文
posted @ 2020-03-22 22:44 陈chen2710 阅读(188) 评论(0) 推荐(0)
摘要: 随机深林和AdaBoost的区别 随机森林 Bagging思想:采用有放回的采样规则,从m个样本点中抽取n个数据构建一个新的训练数据集,用这个数据集来训练模型,重复多次,得到多个模型。采用投票或取均值的方式进行预测。 随机森林在Bagging的基础上,对特征也进行抽样构建每次的训练数据集。RF的基学 阅读全文
posted @ 2020-03-15 19:09 陈chen2710 阅读(943) 评论(0) 推荐(0)
摘要: Spark性能优化点 一、分配更多的资源 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的, 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调 优的时候,首先第一步,就是要来调节优的资源配置;在这个基础之上 阅读全文
posted @ 2020-03-08 23:35 陈chen2710 阅读(1539) 评论(0) 推荐(0)
摘要: Scala面向对象 前言: Scala语言是面向对象的。 ▪ Java是面向对象的编程语言,由于历史原因,Java中还存在着非面向对象的内容:基本类型(int,float..) ,null,静态方法等。 ▪ Scala语言来自于Java,所以天生就是面向对象的语言,而且Scala是纯粹的面向对象的语 阅读全文
posted @ 2020-02-27 00:37 陈chen2710 阅读(341) 评论(0) 推荐(0)