Super_Orco

2017年6月14日

Hive2.2.1安装使用

摘要：解压缩hive安装包tar zxvf apache-hive-2.1.1-bin.tar.gz安装mysqlsudo yum install mysql-server安装 mysql connectorsudo yum install mysql-connector-java该命令会在/usr/sh 阅读全文

posted @ 2017-06-14 22:22 Super_Orco 阅读(1675) 评论(0) 推荐(0)

2017年6月7日

MapReduce概述

摘要： MapReduce 源自于Google的MapReduce论文，Hadoop MapReduce是Google MapReduce克隆版 MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长的地方实时计算，不能像MySQL一样，在毫秒级或者秒级内返回结果流式计算，MapR 阅读全文

posted @ 2017-06-07 14:09 Super_Orco 阅读(724) 评论(0) 推荐(0)

idea打jar包

摘要：得，来介绍下IDEA下如何打JAR包吧，包含所有依赖 1、 2、 3、 4、点ok后我的示例，直接ok 5、 6、阅读全文

posted @ 2017-06-07 09:03 Super_Orco 阅读(223) 评论(0) 推荐(0)

2017年6月5日

kafka

摘要： replication-factor 指定副本数，一般是2或者3（3耗空间，他不是数据存储系统，只是一个缓存，所以2就可以了） partitions 指定分区数，如果是1，则会有一个很严重的问题，没有并发删除 topic bin/kafka-topics.sh --delete --zookeep 阅读全文

posted @ 2017-06-05 11:13 Super_Orco 阅读(143) 评论(0) 推荐(0)

2017年6月3日

大数据生态，哪些框架需要全部启动，哪些只启动master，仅为汇总

摘要：主从，只需要在master节点启动 hadoop hbase 单机启动 hive 其他，需要启动每个节点 zookeeper kafka flume presto 阅读全文

posted @ 2017-06-03 18:48 Super_Orco 阅读(218) 评论(0) 推荐(0)

2017年6月1日

Hbase1.2.4概述

摘要：安装Hbase的时候，需要注意版本与Hadoop的版本兼容，具体查看：https://hbase.apache.org/book.html#basic.prerequisites 如下图：我的Hadoop2.7.3 概述： HBase是⼀个构建在HDFS上的分布式列存储系统 Hbase读写强一致性阅读全文

posted @ 2017-06-01 14:39 Super_Orco 阅读(369) 评论(0) 推荐(0)

2017年5月25日

Sqoop

摘要： Sqoop是什么 Sqoop 是连接传统关系型数据库和Hadoop 的桥梁，主要功能是，把关系型数据库的数据导入到Hadoop 系统( 如HDFS、HBase 和Hive) 中把数据从Hadoop 系统里抽取并导出到关系型数据库里可以利用MapReduce 加快数据传输速度，使用批处理的方式进阅读全文

posted @ 2017-05-25 10:27 Super_Orco 阅读(387) 评论(0) 推荐(0)

2017年5月24日

Flume1.7.0的安装与使用

摘要： Flume下载后，解压，新增一个配置文件，写入配置即可我将配置文件写在 conf 下，取名为 flume-conf-spooldir.properties Flume 运行命令： bin/flume-ng agent --conf conf --conf-file conf/flume-conf- 阅读全文

posted @ 2017-05-24 20:27 Super_Orco 阅读(764) 评论(0) 推荐(0)

Flume1.7.0概述

摘要： Flume概述常见的开源数据收集系统有：非结构数据（日志）收集 Flume 结构化数据收集（传统数据库与 Hadoop 同步） Sqoop：全量导入 Canal（alibaba）：增量导入 Databus（linkedin）：增量导入 Flume是什么：由Cloudera公司开源分布式、可靠阅读全文

posted @ 2017-05-24 18:16 Super_Orco 阅读(483) 评论(0) 推荐(0)

HDFS JAVA API介绍

摘要：注：在工程pom.xml 所在目录，cmd中运行 mvn package ，打包可能会有两个jar，名字较长的是包含所有依赖的重量级的jar，可以在linux中使用 java -cp 命令来跑。名字较短的jar，只包含了我们自己创建的类的依赖的轻量级jar，需要hadoop，所以在linux中需要使阅读全文

posted @ 2017-05-24 15:45 Super_Orco 阅读(701) 评论(0) 推荐(0)

HDFS 详解

摘要： HDFS 概述基于2.7.3 HDFS 优点： 1、高容错性数据自动保存多个副本，默认是三个副本副本丢失后，会自动恢复 2、适合批处理移动计算而非移动数据，批处理的时候，数据量很大，移动数据是不合适的，好的方式是分布式的移动计算数据位置暴露给计算框架，数据被切分为 block list，b 阅读全文

posted @ 2017-05-24 11:43 Super_Orco 阅读(564) 评论(0) 推荐(0)

2017年5月23日

Hive2.2.1概述（待重写）

摘要：概述 hive 是一个包裹着 hdfs 的壳子，hive 通过 hql，将 sql 翻译成 MR ，进行数据查询。 Hive是⼀个构建在Hadoop之上的数据仓库 hive的数据存在hdfs上，元信息放在metastore中，metastore也放在hdfs上和传统的数据仓库⼀样，主要⽤来访问和管阅读全文

posted @ 2017-05-23 13:45 Super_Orco 阅读(391) 评论(0) 推荐(0)

公告