百里登风

导航

上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 36 下一页

2017年11月2日

flume用场景及架构原理

摘要: Flume是什么 1.flume可以将采集到的数据存储到HDFS上,也可以放在Hbase上。 2.flume就是一个中间插件,他的作用就是屏蔽数据源和数据存储系统的差异。可以在不同的数据源采集数据,因为数据源是多样化的。 数据源的多样化和数据存储系统的多样化,flume作为一个中间插件把数据源和存储 阅读全文

posted @ 2017-11-02 17:56 百里登峰 阅读(311) 评论(0) 推荐(0)

2017年11月1日

shell脚本

摘要: Shell vs Shell脚本 Shell 环境 Shell 两种执行命令的方式 第一个Shell脚本 运行Shell脚本 下面是一个例子: #!/bin/bash #set -x if [ $# -lt 3 ] #$#是传递到脚本的参数个数,如果参数个数小于3退出 then echo "Usag 阅读全文

posted @ 2017-11-01 01:13 百里登峰 阅读(380) 评论(0) 推荐(0)

2017年10月29日

sqoop导入导出

摘要: sqoop产生背景 什么是sqoop sqoop的优势 sqoop1与sqoop2的比较 为什么选择sqoop1 sqoop在hadoop生态体系中的位置 sqoop基本架构 sqoop import原理 sqoop import 详细流程 sqoop export原理 sqoop 安装部署 sqo 阅读全文

posted @ 2017-10-29 17:43 百里登峰 阅读(352) 评论(0) 推荐(0)

2017年10月26日

HBase性能调优

摘要: Hbase调优 Hbase常见调优参数 冷热数据的处理 阅读全文

posted @ 2017-10-26 23:49 百里登峰 阅读(208) 评论(0) 推荐(0)

2017年10月23日

HBase核心知识和应用案例

摘要: Hbase 热点问题? Hbase 预分区 Hbase Rowkey 设计原则 Hbase 常见避免热点问题方法 Hbase 总结 Hbase 连续查询的Rowkey设计 Hbase 随机查询的Rowkey设计 Hbase columnFamily设计 Hbase 表设计 Hbase 窄表设计 Hb 阅读全文

posted @ 2017-10-23 22:10 百里登峰 阅读(908) 评论(0) 推荐(0)

2017年10月22日

HBase原理和架构

摘要: HBase是什么 HBase在生态体系中的位置 HBase vs HDFS HBase表的特点 HBase是真正的分布式存储,存储级别达到TB级别,而才传统数据库就不是真正的分布式了,传统数据库在底层,虽然的存储能力很强,一旦达到上亿条数据。读取性能下降得很快。 传统数据库按行存储,如果列过多的话, 阅读全文

posted @ 2017-10-22 22:29 百里登峰 阅读(684) 评论(0) 推荐(0)

2017年10月20日

Hive UDF作业

摘要: 说到这次作业,看似简单的几个步骤,对于我这样的菜鸟来说可真是一波三折啊。下面来说说这次的步骤和我遇到的问题。 首先准备工作,搭建好hive环境,保证hadoop集群是启动的。这个就不多说了。 第一步:将数据导入Hive中 在hive中,创建 stock 表结构。 hive> create table 阅读全文

posted @ 2017-10-20 16:01 百里登峰 阅读(248) 评论(0) 推荐(0)

2017年10月19日

Hive性能调优

摘要: 表分为内部表、外部表、分区表,桶表。内部表、外部表、分区表对应的是目录,桶表对应目录下的文件。 阅读全文

posted @ 2017-10-19 22:48 百里登峰 阅读(240) 评论(0) 推荐(0)

2017年10月17日

hive

摘要: 前面讲到的海量数据存储分析: 为什么需要hive: 思考一下用什么来封装! 传统的数据仓库是通过sql语言存储在传统的关系型数据库里面的,hive的数据仓库是通过hql语言存储在HDFS上的,也就是说hive通过hql语言转换成mapreduce来对hdfs数据进行分析。 hive就是通过hql语言 阅读全文

posted @ 2017-10-17 23:47 百里登峰 阅读(667) 评论(0) 推荐(0)

hadoop分布式集群的搭建

摘要: 电脑如果是8G内存或者以下建议搭建3节点集群,如果是搭建5节点集群就要增加内存条了。当然实际开发中不会用虚拟机做,一些小公司刚刚起步的时候会采用云服务,因为开始数据量不大。 但随着数据量的增大才会考虑搭建自己的集群,中大型公司肯定会搭建自己的专属集群,毕竟云服务用起来方便,但是还是有很多的局限性。 阅读全文

posted @ 2017-10-17 21:08 百里登峰 阅读(449) 评论(0) 推荐(0)

上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 36 下一页