摘要: 解压缩hive安装包tar zxvf apache-hive-2.1.1-bin.tar.gz安装mysqlsudo yum install mysql-server安装 mysql connectorsudo yum install mysql-connector-java该命令会在/usr/sh 阅读全文
posted @ 2017-06-14 22:22 Super_Orco 阅读(1651) 评论(0) 推荐(0) 编辑
摘要: MapReduce 源自于Google的MapReduce论文,Hadoop MapReduce是Google MapReduce克隆版 MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长的地方 实时计算,不能像MySQL一样,在毫秒级或者秒级内返回结果 流式计算,MapR 阅读全文
posted @ 2017-06-07 14:09 Super_Orco 阅读(691) 评论(0) 推荐(0) 编辑
摘要: 得,来介绍下IDEA下如何打JAR包吧,包含所有依赖 1、 2、 3、 4、点ok后我的示例,直接ok 5、 6、 阅读全文
posted @ 2017-06-07 09:03 Super_Orco 阅读(213) 评论(0) 推荐(0) 编辑
摘要: replication-factor 指定副本数,一般是2或者3(3耗空间,他不是数据存储系统,只是一个缓存,所以2就可以了) partitions 指定分区数,如果是1,则会有一个很严重的问题,没有并发 删除 topic bin/kafka-topics.sh --delete --zookeep 阅读全文
posted @ 2017-06-05 11:13 Super_Orco 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 主从,只需要在master节点启动 hadoop hbase 单机启动 hive 其他,需要启动每个节点 zookeeper kafka flume presto 阅读全文
posted @ 2017-06-03 18:48 Super_Orco 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 安装Hbase的时候,需要注意版本与Hadoop的版本兼容,具体查看:https://hbase.apache.org/book.html#basic.prerequisites 如下图: 我的Hadoop2.7.3 概述: HBase是⼀个构建在HDFS上的分布式列存储系统 Hbase读写强一致性 阅读全文
posted @ 2017-06-01 14:39 Super_Orco 阅读(337) 评论(0) 推荐(0) 编辑
摘要: Sqoop是什么 Sqoop 是连接传统关系型数据库和Hadoop 的桥梁,主要功能是, 把关系型数据库的数据导入到Hadoop 系统( 如HDFS、HBase 和Hive) 中 把数据从Hadoop 系统里抽取并导出到关系型数据库里 可以利用MapReduce 加快数据传输速度,使用批处理的方式进 阅读全文
posted @ 2017-05-25 10:27 Super_Orco 阅读(371) 评论(0) 推荐(0) 编辑
摘要: Flume下载后,解压,新增一个配置文件,写入配置即可 我将配置文件写在 conf 下,取名为 flume-conf-spooldir.properties Flume 运行命令: bin/flume-ng agent --conf conf --conf-file conf/flume-conf- 阅读全文
posted @ 2017-05-24 20:27 Super_Orco 阅读(746) 评论(0) 推荐(0) 编辑
摘要: Flume概述 常见的开源数据收集系统有: 非结构数据(日志)收集 Flume 结构化数据收集(传统数据库与 Hadoop 同步) Sqoop:全量导入 Canal(alibaba):增量导入 Databus(linkedin):增量导入 Flume是什么: 由Cloudera公司开源 分布式、可靠 阅读全文
posted @ 2017-05-24 18:16 Super_Orco 阅读(456) 评论(0) 推荐(0) 编辑
摘要: 注:在工程pom.xml 所在目录,cmd中运行 mvn package ,打包可能会有两个jar,名字较长的是包含所有依赖的重量级的jar,可以在linux中使用 java -cp 命令来跑。名字较短的jar,只包含了我们自己创建的类的依赖的轻量级jar,需要hadoop,所以在linux中需要使 阅读全文
posted @ 2017-05-24 15:45 Super_Orco 阅读(689) 评论(0) 推荐(0) 编辑
摘要: HDFS 概述 基于2.7.3 HDFS 优点: 1、高容错性 数据自动保存多个副本,默认是三个副本 副本丢失后,会自动恢复 2、适合批处理 移动计算而非移动数据,批处理的时候,数据量很大,移动数据是不合适的,好的方式是分布式的移动计算 数据位置暴露给计算框架,数据被切分为 block list,b 阅读全文
posted @ 2017-05-24 11:43 Super_Orco 阅读(521) 评论(0) 推荐(0) 编辑
摘要: 概述 hive 是一个包裹着 hdfs 的壳子,hive 通过 hql,将 sql 翻译成 MR ,进行数据查询。 Hive是⼀个构建在Hadoop之上的数据仓库 hive的数据存在hdfs上,元信息放在metastore中,metastore也放在hdfs上 和传统的数据仓库⼀样,主要⽤来访问和管 阅读全文
posted @ 2017-05-23 13:45 Super_Orco 阅读(375) 评论(0) 推荐(0) 编辑