摘要: Hadoop最早起源于Nutch。 Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。 ​ ——分布式文件 阅读全文
posted @ 2020-03-29 22:06 张小张啊 阅读(433) 评论(0) 推荐(0)
摘要: 决策树 是机器学习中最常见的算法之一,顾名思义,是学习用来决策的树,一种逼近离散值目标函数的方法,学到的函数树被表示为一颗决策树。 结构 目的:为了构建一棵泛化能力强,即处理待测样本能力强的决策树,遵循自顶向下,分而治之的的策略 信息量:指的是一个样本/事件所蕴含的信息,如果一个事件的概率越大,那么 阅读全文
posted @ 2020-03-22 21:12 张小张啊 阅读(424) 评论(0) 推荐(0)
摘要: 随机森林 bagging思想 从样本集中用Bootstrap采样选出n个样本; 从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建决策树; 重复以上两步m次,即建立m棵决策树; 这m个决策树形成随机森林,通过投票表决结果决定数据属于那一类 优点 具有极高的准确率 随机性的引入,使得随机森林 阅读全文
posted @ 2020-03-15 23:44 张小张啊 阅读(358) 评论(0) 推荐(0)
摘要: 分配更多的资源 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调 优的时候,首先第一步,就是要来调节优的资源配置;在这个基础之上,如果说你的spark作业, 阅读全文
posted @ 2020-03-08 20:34 张小张啊 阅读(168) 评论(0) 推荐(0)
摘要: 1. 创建maven 项目 2. 项目添加scala的framework 创建的maven项目默认是不支持scala的,需要为项目添加scala的framework,如图: 在这里选择Scala后,在右边的Use library中配置你的安装目录即可,最后点击OK。 说明: 第一次引入scala f 阅读全文
posted @ 2020-02-26 21:00 张小张啊 阅读(602) 评论(0) 推荐(0)