张小张啊

2020年3月29日

摘要： Hadoop最早起源于Nutch。 Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。 ——分布式文件阅读全文

posted @ 2020-03-29 22:06 张小张啊阅读(435) 评论(0) 推荐(0)

2020年3月22日

决策树

摘要：决策树是机器学习中最常见的算法之一，顾名思义，是学习用来决策的树，一种逼近离散值目标函数的方法，学到的函数树被表示为一颗决策树。结构目的：为了构建一棵泛化能力强，即处理待测样本能力强的决策树，遵循自顶向下，分而治之的的策略信息量：指的是一个样本/事件所蕴含的信息，如果一个事件的概率越大，那么阅读全文

posted @ 2020-03-22 21:12 张小张啊阅读(427) 评论(0) 推荐(0)

2020年3月15日

随机森林和adaboost

摘要：随机森林 bagging思想从样本集中用Bootstrap采样选出n个样本；从所有属性中随机选择K个属性，选择出最佳分割属性作为节点创建决策树；重复以上两步m次，即建立m棵决策树；这m个决策树形成随机森林，通过投票表决结果决定数据属于那一类优点具有极高的准确率随机性的引入，使得随机森林阅读全文

posted @ 2020-03-15 23:44 张小张啊阅读(363) 评论(0) 推荐(0)

2020年3月8日

spark调优

摘要：分配更多的资源它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节优的资源配置；在这个基础之上，如果说你的spark作业，阅读全文

posted @ 2020-03-08 20:34 张小张啊阅读(169) 评论(0) 推荐(0)

2020年2月26日

idea 开发 scala 项目

摘要： 1. 创建maven 项目 2. 项目添加scala的framework 创建的maven项目默认是不支持scala的，需要为项目添加scala的framework，如图：在这里选择Scala后，在右边的Use library中配置你的安装目录即可，最后点击OK。说明：第一次引入scala f 阅读全文

posted @ 2020-02-26 21:00 张小张啊阅读(603) 评论(0) 推荐(0)

公告