2019年11月19日

摘要: RDD及其特点 1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行 阅读全文
posted @ 2019-11-19 17:50 你好!Mr陈 阅读(252) 评论(0) 推荐(0) 编辑

2019年10月21日

摘要: flume自定义拦截器:实现Interceptor接口flume自定义source:继承AbstractSourceflume自定义sink:继承AbstractSink azkaban:任务调度工具。正常使用即可任务调度,定时执行,任务之间的依赖 sqoop:数据导入导出工具将关系型数据库当中的数 阅读全文
posted @ 2019-10-21 14:02 你好!Mr陈 阅读(169) 评论(0) 推荐(0) 编辑
 
摘要: 1.数据仓库 2.hive介绍 3.hive的操作 4.hive参数 5.hive函数(udf) 6.hive数据压缩 7.hive存储格式 8.存储和压缩相结合 9.hive调优 1.数据仓库 ​ 数据仓库:用于存储大量的历史历史数据。简称DW或者DWH,databasewarehouse,用于面 阅读全文
posted @ 2019-10-21 13:59 你好!Mr陈 阅读(253) 评论(0) 推荐(0) 编辑
 
摘要: 1、hbase的基本介绍:google三篇论文: bigtable ==》 HBasehbase也是一个nosql数据库 ,基于hadoop上面的一个nosql数据库hbase主要是用于存储结构和和半结构化松散数据 hbase支持的所有的数据类型都是 :byte[] hbase的特点: 大:一个表可 阅读全文
posted @ 2019-10-21 13:54 你好!Mr陈 阅读(628) 评论(0) 推荐(0) 编辑

2019年10月12日

摘要: Elasticsearch Elasticsearch 是一个实时的分布式搜索和分析引擎,它可以用于全文搜索,结构化搜索以及分析。它是一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎,使用 Java 语言编写。 主要特点 – 实时分析 – 分布式实时文件存储,并将每一个字段都编入 阅读全文
posted @ 2019-10-12 14:23 你好!Mr陈 阅读(441) 评论(0) 推荐(0) 编辑
 
摘要: package com.redoop.mlsqlimport java.net.URLEncoderimport java.nio.charset.Charsetimport net.sf.json.JSONObjectimport org.apache.http.client.fluent.{Fo 阅读全文
posted @ 2019-10-12 14:17 你好!Mr陈 阅读(168) 评论(0) 推荐(0) 编辑

2019年9月25日

摘要: 1.检查内核版本,必须是3.10及以上 uname -r 2.安装 yum -y install docker #1.启动 docker systemctl start docker #1.1.验证 docker -v #2.设置开机自启 systemctl enable docker #2.1.关 阅读全文
posted @ 2019-09-25 16:47 你好!Mr陈 阅读(311) 评论(0) 推荐(0) 编辑

2019年6月20日

摘要: 大家好,我是来自内蒙古的小哥,我现在在北京学习大数据,我想把学到的东西分享给大家,想和大家一起学习 hue框架介绍和安装部署 hue全称:HUE=Hadoop User Experience 他是cloudera公司提供的一个web框架,和其他大数据框架整合,提供可视化界面 hue的架构 1.hue 阅读全文
posted @ 2019-06-20 20:58 你好!Mr陈 阅读(1401) 评论(0) 推荐(0) 编辑