上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 45 下一页
摘要: Scala中,所有的值都是类对象,而所有的类,包括值类型,都最终继承自一个统一的根类型Any。统一类型,是Scala的又一大特点。更特别的是,Scala中还定义了几个底层类(Bottom Class),比如Null和Nothing。 Null是所有引用类型的子类型,而Nothing是所有类型的子类型 阅读全文
posted @ 2018-10-18 23:32 大葱拌豆腐 阅读(611) 评论(0) 推荐(0)
摘要: 1 采样算法解决数据倾斜的思想 2 采样算法在spark数据倾斜中的具体操作 阅读全文
posted @ 2018-10-16 23:40 大葱拌豆腐 阅读(1040) 评论(0) 推荐(0)
摘要: Spark中组件Mllib的学习之基础概念篇 1、解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层2,字符串长度为3划分为层1,对层1和层2按不同的概率进行抽样 数据 比如: val 阅读全文
posted @ 2018-10-16 23:36 大葱拌豆腐 阅读(2075) 评论(0) 推荐(0)
摘要: hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件。假设block设置为128M,你的文件是250M,那么这份文件占3个block(128+128+2)。这样的设计虽然会有一部分磁盘空间的浪费,但是整齐的block大小 阅读全文
posted @ 2018-10-12 16:54 大葱拌豆腐 阅读(3264) 评论(0) 推荐(0)
摘要: 代码块: 阅读全文
posted @ 2018-10-09 20:56 大葱拌豆腐 阅读(15671) 评论(1) 推荐(0)
摘要: 谈数据质量管理,我们首先要绕开类似BI或MDM系统,首先看下对标准的数据质量管理的一下阐述。 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动 阅读全文
posted @ 2018-09-29 16:27 大葱拌豆腐 阅读(559) 评论(0) 推荐(0)
摘要: 一、 跨行业数据合作背景 国务院副总理马凯,曾经在2015贵阳国际大数据产业博览会中提到: 融合是大数据的价值所在,应大力推动大数据与产业融合,面向工业、交通、物流、商贸、金融、电信、能源等数据量大的行业领域,开展数据开发和交易,充分挖掘大数据的商业价值,促进产业提质增效升级。 另外,《大数据时代》 阅读全文
posted @ 2018-09-29 16:09 大葱拌豆腐 阅读(5345) 评论(0) 推荐(0)
摘要: 原文地址:https://www.cnblogs.com/ballwql/p/hbase_data_transfer.html 一、前言 HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类: 从上面图中可看出,目前的方案主要有四类,Hadoop层有一类,HBase层有三类。下面 阅读全文
posted @ 2018-09-29 15:59 大葱拌豆腐 阅读(827) 评论(0) 推荐(0)
摘要: 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指的是不符合要求,以及不能直接进行相应分析的数据。数据的质量分析侧重于脏数据的发现,而数据清洗则是对这些脏数据的修正或者丢弃。一般情况下,数据的质量分析与数据清洗是相伴而行的,在分析出脏数据的时候伴随着数据的清洗。 常见的脏数据包括如下 阅读全文
posted @ 2018-09-28 19:42 大葱拌豆腐 阅读(293) 评论(0) 推荐(0)
摘要: 本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据 对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLib 阅读全文
posted @ 2018-09-23 14:07 大葱拌豆腐 阅读(3102) 评论(0) 推荐(0)
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 45 下一页