会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Super_Orco
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
2017年6月14日
Hive2.2.1安装使用
摘要: 解压缩hive安装包tar zxvf apache-hive-2.1.1-bin.tar.gz安装mysqlsudo yum install mysql-server安装 mysql connectorsudo yum install mysql-connector-java该命令会在/usr/sh
阅读全文
posted @ 2017-06-14 22:22 Super_Orco
阅读(1674)
评论(0)
推荐(0)
2017年6月7日
MapReduce概述
摘要: MapReduce 源自于Google的MapReduce论文,Hadoop MapReduce是Google MapReduce克隆版 MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长的地方 实时计算,不能像MySQL一样,在毫秒级或者秒级内返回结果 流式计算,MapR
阅读全文
posted @ 2017-06-07 14:09 Super_Orco
阅读(724)
评论(0)
推荐(0)
idea打jar包
摘要: 得,来介绍下IDEA下如何打JAR包吧,包含所有依赖 1、 2、 3、 4、点ok后我的示例,直接ok 5、 6、
阅读全文
posted @ 2017-06-07 09:03 Super_Orco
阅读(219)
评论(0)
推荐(0)
2017年6月5日
kafka
摘要: replication-factor 指定副本数,一般是2或者3(3耗空间,他不是数据存储系统,只是一个缓存,所以2就可以了) partitions 指定分区数,如果是1,则会有一个很严重的问题,没有并发 删除 topic bin/kafka-topics.sh --delete --zookeep
阅读全文
posted @ 2017-06-05 11:13 Super_Orco
阅读(141)
评论(0)
推荐(0)
2017年6月3日
大数据生态,哪些框架需要全部启动,哪些只启动master,仅为汇总
摘要: 主从,只需要在master节点启动 hadoop hbase 单机启动 hive 其他,需要启动每个节点 zookeeper kafka flume presto
阅读全文
posted @ 2017-06-03 18:48 Super_Orco
阅读(216)
评论(0)
推荐(0)
2017年6月1日
Hbase1.2.4概述
摘要: 安装Hbase的时候,需要注意版本与Hadoop的版本兼容,具体查看:https://hbase.apache.org/book.html#basic.prerequisites 如下图: 我的Hadoop2.7.3 概述: HBase是⼀个构建在HDFS上的分布式列存储系统 Hbase读写强一致性
阅读全文
posted @ 2017-06-01 14:39 Super_Orco
阅读(366)
评论(0)
推荐(0)
2017年5月25日
Sqoop
摘要: Sqoop是什么 Sqoop 是连接传统关系型数据库和Hadoop 的桥梁,主要功能是, 把关系型数据库的数据导入到Hadoop 系统( 如HDFS、HBase 和Hive) 中 把数据从Hadoop 系统里抽取并导出到关系型数据库里 可以利用MapReduce 加快数据传输速度,使用批处理的方式进
阅读全文
posted @ 2017-05-25 10:27 Super_Orco
阅读(386)
评论(0)
推荐(0)
2017年5月24日
Flume1.7.0的安装与使用
摘要: Flume下载后,解压,新增一个配置文件,写入配置即可 我将配置文件写在 conf 下,取名为 flume-conf-spooldir.properties Flume 运行命令: bin/flume-ng agent --conf conf --conf-file conf/flume-conf-
阅读全文
posted @ 2017-05-24 20:27 Super_Orco
阅读(762)
评论(0)
推荐(0)
Flume1.7.0概述
摘要: Flume概述 常见的开源数据收集系统有: 非结构数据(日志)收集 Flume 结构化数据收集(传统数据库与 Hadoop 同步) Sqoop:全量导入 Canal(alibaba):增量导入 Databus(linkedin):增量导入 Flume是什么: 由Cloudera公司开源 分布式、可靠
阅读全文
posted @ 2017-05-24 18:16 Super_Orco
阅读(483)
评论(0)
推荐(0)
HDFS JAVA API介绍
摘要: 注:在工程pom.xml 所在目录,cmd中运行 mvn package ,打包可能会有两个jar,名字较长的是包含所有依赖的重量级的jar,可以在linux中使用 java -cp 命令来跑。名字较短的jar,只包含了我们自己创建的类的依赖的轻量级jar,需要hadoop,所以在linux中需要使
阅读全文
posted @ 2017-05-24 15:45 Super_Orco
阅读(700)
评论(0)
推荐(0)
HDFS 详解
摘要: HDFS 概述 基于2.7.3 HDFS 优点: 1、高容错性 数据自动保存多个副本,默认是三个副本 副本丢失后,会自动恢复 2、适合批处理 移动计算而非移动数据,批处理的时候,数据量很大,移动数据是不合适的,好的方式是分布式的移动计算 数据位置暴露给计算框架,数据被切分为 block list,b
阅读全文
posted @ 2017-05-24 11:43 Super_Orco
阅读(562)
评论(0)
推荐(0)
2017年5月23日
Hive2.2.1概述(待重写)
摘要: 概述 hive 是一个包裹着 hdfs 的壳子,hive 通过 hql,将 sql 翻译成 MR ,进行数据查询。 Hive是⼀个构建在Hadoop之上的数据仓库 hive的数据存在hdfs上,元信息放在metastore中,metastore也放在hdfs上 和传统的数据仓库⼀样,主要⽤来访问和管
阅读全文
posted @ 2017-05-23 13:45 Super_Orco
阅读(389)
评论(0)
推荐(0)
上一页
1
2
公告