会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
12
13
14
15
16
17
18
19
20
···
45
下一页
2018年10月18日
Scala数据类型的继承结构
摘要: Scala中,所有的值都是类对象,而所有的类,包括值类型,都最终继承自一个统一的根类型Any。统一类型,是Scala的又一大特点。更特别的是,Scala中还定义了几个底层类(Bottom Class),比如Null和Nothing。 Null是所有引用类型的子类型,而Nothing是所有类型的子类型
阅读全文
posted @ 2018-10-18 23:32 大葱拌豆腐
阅读(611)
评论(0)
推荐(0)
2018年10月16日
Spark之数据倾斜 --采样分而治之解决方案
摘要: 1 采样算法解决数据倾斜的思想 2 采样算法在spark数据倾斜中的具体操作
阅读全文
posted @ 2018-10-16 23:40 大葱拌豆腐
阅读(1040)
评论(0)
推荐(0)
Spark Mllib之分层抽样
摘要: Spark中组件Mllib的学习之基础概念篇 1、解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层2,字符串长度为3划分为层1,对层1和层2按不同的概率进行抽样 数据 比如: val
阅读全文
posted @ 2018-10-16 23:36 大葱拌豆腐
阅读(2075)
评论(0)
推荐(0)
2018年10月12日
Spark中的partition和block的关系
摘要: hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件。假设block设置为128M,你的文件是250M,那么这份文件占3个block(128+128+2)。这样的设计虽然会有一部分磁盘空间的浪费,但是整齐的block大小
阅读全文
posted @ 2018-10-12 16:54 大葱拌豆腐
阅读(3264)
评论(0)
推荐(0)
2018年10月9日
Spark SQL DataFrame新增一列的四种方法
摘要: 代码块:
阅读全文
posted @ 2018-10-09 20:56 大葱拌豆腐
阅读(15671)
评论(1)
推荐(0)
2018年9月29日
数据质量管理(二)
摘要: 谈数据质量管理,我们首先要绕开类似BI或MDM系统,首先看下对标准的数据质量管理的一下阐述。 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动
阅读全文
posted @ 2018-09-29 16:27 大葱拌豆腐
阅读(559)
评论(0)
推荐(0)
大数据形势下的三种数据融合方式:组合、整合和聚合
摘要: 一、 跨行业数据合作背景 国务院副总理马凯,曾经在2015贵阳国际大数据产业博览会中提到: 融合是大数据的价值所在,应大力推动大数据与产业融合,面向工业、交通、物流、商贸、金融、电信、能源等数据量大的行业领域,开展数据开发和交易,充分挖掘大数据的商业价值,促进产业提质增效升级。 另外,《大数据时代》
阅读全文
posted @ 2018-09-29 16:09 大葱拌豆腐
阅读(5345)
评论(0)
推荐(0)
HBase 数据迁移方案介绍 (转载)
摘要: 原文地址:https://www.cnblogs.com/ballwql/p/hbase_data_transfer.html 一、前言 HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类: 从上面图中可看出,目前的方案主要有四类,Hadoop层有一类,HBase层有三类。下面
阅读全文
posted @ 2018-09-29 15:59 大葱拌豆腐
阅读(827)
评论(0)
推荐(0)
2018年9月28日
数据质量(一)
摘要: 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指的是不符合要求,以及不能直接进行相应分析的数据。数据的质量分析侧重于脏数据的发现,而数据清洗则是对这些脏数据的修正或者丢弃。一般情况下,数据的质量分析与数据清洗是相伴而行的,在分析出脏数据的时候伴随着数据的清洗。 常见的脏数据包括如下
阅读全文
posted @ 2018-09-28 19:42 大葱拌豆腐
阅读(293)
评论(0)
推荐(0)
2018年9月23日
关于spark的mllib学习总结(Java版)
摘要: 本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据 对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLib
阅读全文
posted @ 2018-09-23 14:07 大葱拌豆腐
阅读(3102)
评论(0)
推荐(0)
上一页
1
···
12
13
14
15
16
17
18
19
20
···
45
下一页
公告