会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
张小张啊
博客园
首页
新随笔
联系
订阅
管理
2020年3月29日
Hadoop
摘要: Hadoop最早起源于Nutch。 Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。 ——分布式文件
阅读全文
posted @ 2020-03-29 22:06 张小张啊
阅读(433)
评论(0)
推荐(0)
2020年3月22日
决策树
摘要: 决策树 是机器学习中最常见的算法之一,顾名思义,是学习用来决策的树,一种逼近离散值目标函数的方法,学到的函数树被表示为一颗决策树。 结构 目的:为了构建一棵泛化能力强,即处理待测样本能力强的决策树,遵循自顶向下,分而治之的的策略 信息量:指的是一个样本/事件所蕴含的信息,如果一个事件的概率越大,那么
阅读全文
posted @ 2020-03-22 21:12 张小张啊
阅读(424)
评论(0)
推荐(0)
2020年3月15日
随机森林和adaboost
摘要: 随机森林 bagging思想 从样本集中用Bootstrap采样选出n个样本; 从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建决策树; 重复以上两步m次,即建立m棵决策树; 这m个决策树形成随机森林,通过投票表决结果决定数据属于那一类 优点 具有极高的准确率 随机性的引入,使得随机森林
阅读全文
posted @ 2020-03-15 23:44 张小张啊
阅读(358)
评论(0)
推荐(0)
2020年3月8日
spark调优
摘要: 分配更多的资源 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调 优的时候,首先第一步,就是要来调节优的资源配置;在这个基础之上,如果说你的spark作业,
阅读全文
posted @ 2020-03-08 20:34 张小张啊
阅读(168)
评论(0)
推荐(0)
2020年2月26日
idea 开发 scala 项目
摘要: 1. 创建maven 项目 2. 项目添加scala的framework 创建的maven项目默认是不支持scala的,需要为项目添加scala的framework,如图: 在这里选择Scala后,在右边的Use library中配置你的安装目录即可,最后点击OK。 说明: 第一次引入scala f
阅读全文
posted @ 2020-02-26 21:00 张小张啊
阅读(602)
评论(0)
推荐(0)
公告