摘要:
RDD及其特点 1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行 阅读全文
2019年11月19日
2019年10月21日
摘要:
flume自定义拦截器:实现Interceptor接口flume自定义source:继承AbstractSourceflume自定义sink:继承AbstractSink azkaban:任务调度工具。正常使用即可任务调度,定时执行,任务之间的依赖 sqoop:数据导入导出工具将关系型数据库当中的数 阅读全文
摘要:
1.数据仓库 2.hive介绍 3.hive的操作 4.hive参数 5.hive函数(udf) 6.hive数据压缩 7.hive存储格式 8.存储和压缩相结合 9.hive调优 1.数据仓库 数据仓库:用于存储大量的历史历史数据。简称DW或者DWH,databasewarehouse,用于面 阅读全文
2019年10月12日
摘要:
Elasticsearch Elasticsearch 是一个实时的分布式搜索和分析引擎,它可以用于全文搜索,结构化搜索以及分析。它是一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎,使用 Java 语言编写。 主要特点 – 实时分析 – 分布式实时文件存储,并将每一个字段都编入 阅读全文
摘要:
package com.redoop.mlsqlimport java.net.URLEncoderimport java.nio.charset.Charsetimport net.sf.json.JSONObjectimport org.apache.http.client.fluent.{Fo 阅读全文
2019年9月25日
摘要:
1.检查内核版本,必须是3.10及以上 uname -r 2.安装 yum -y install docker #1.启动 docker systemctl start docker #1.1.验证 docker -v #2.设置开机自启 systemctl enable docker #2.1.关 阅读全文
2019年6月20日
摘要:
大家好,我是来自内蒙古的小哥,我现在在北京学习大数据,我想把学到的东西分享给大家,想和大家一起学习 hue框架介绍和安装部署 hue全称:HUE=Hadoop User Experience 他是cloudera公司提供的一个web框架,和其他大数据框架整合,提供可视化界面 hue的架构 1.hue 阅读全文