liuxiaopang
减肥路漫漫,编程遥无期
摘要: Hive主要为了简化MapReduce流程,使非编程人员也能进行数据的梳理,即直接使用sql语句代替MapReduce程序 Hive建表的时候元数据(表明,字段信息等)存于关系型数据库中,数据存于HDFS中。 此元数据与HDFS中的元数据需要区分清楚,HDFS中元数据(文件名,文件长度等)存于Nam 阅读全文
posted @ 2018-05-17 17:27 liuxiaopang 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度。 之前有提到过,Yarn主要是为了减轻Hadoop1中JobTracker的负担,对其进行了解耦。现在通常都会使用Hadoop Yarn,因为其稳定性 阅读全文
posted @ 2018-05-17 16:46 liuxiaopang 阅读(268) 评论(0) 推荐(0) 编辑
摘要: master为主节点 一个集群中可能运行多个application,因此也可能会有多个driver DAG Scheduler就是讲RDD Graph拆分成一个个stage 一个Task对应一个SparkEnv 客户端提交请求,然后master生成driver,生成对应的SparkContext,然 阅读全文
posted @ 2017-12-21 18:27 liuxiaopang 阅读(121) 评论(0) 推荐(0) 编辑
摘要: spark优势在于基于内存计算,速度很快,计算的中间结果也缓存在内存,同时spark也支持streaming流运算和sql运算 Mesos是资源管理框架,作为资源管理和任务调度,类似Hadoop中的Yran Tachyon是分布式内存文件系统 Spark是核心计算引擎,能够将数据并行大规模计算 Sp 阅读全文
posted @ 2017-12-21 17:29 liuxiaopang 阅读(325) 评论(0) 推荐(0) 编辑
摘要: kafka的客户端也支持其他语言,这里主要介绍python和java的实现,这两门语言比较主流和热门 图中有四个分区,每个图形对应一个consumer,任意一对一即可 获取topic的分区数,每个分区创建一个进程消费分区中的数据。 每个进程的实例中,先要创建连接kafka的实例,然后指定连接到哪个t 阅读全文
posted @ 2017-12-19 18:40 liuxiaopang 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 这些场景的共同点就是数据由上层框架产生,需要由下层框架计算,其中间层就需要有一个消息队列传输系统 Apache flume系统,用于日志收集 Apache storm系统,用于实时数据处理 Spark系统,用于内存数据处理 elasticsearch系统,用于全文检索 broker中每个partit 阅读全文
posted @ 2017-12-18 16:17 liuxiaopang 阅读(149) 评论(0) 推荐(0) 编辑
摘要: Hive架构图: 一般用户接口采用命令行操作, hive与hbase整合之后架构图: 使用场景 场景一:通过insert语句,将文件或者table中的内容加入到hive中,由于hive和hbase已经整合,因此也会加入到hbase当中 场景二:hbase不支持join或者gruop等,可以通过这种方 阅读全文
posted @ 2017-12-15 10:38 liuxiaopang 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 概要: hadoop和hbase导入环境变量: 要运行Hbase中自带的MapReduce程序,需要运行如下指令,可在官网中找到: 如果遇到如下问题,则说明Hadoop的MapReduce没有权限访问Hbase的jar包: 参考官网可解决: 运行后解决: 导入数据运行指令: tsv是指以制表符为分隔 阅读全文
posted @ 2017-12-14 18:44 liuxiaopang 阅读(2760) 评论(0) 推荐(0) 编辑
摘要: Hbase结构图: Client,Zookeeper,Hmaster和HRegionServer相互交互协调,各个组件作用如下: 这几个组件在实际使用过程中操作如下所示: Region定位,先读取zookeeper中的文件,得到root表信息,然后得到meta表的信息,从而操作用户表,0.98之后h 阅读全文
posted @ 2017-12-14 16:47 liuxiaopang 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 简而言之,Hbase就是一个建立在Hdfs文件系统上的数据库(mysql,orecle等),不同的是Hbase是针对列的数据库 Hbase和普通的关系型数据库区别如下: Hbase有一些基本的术语,主键,列族,时间戳和存储单元: 一个行健有多个列族,每个列族下有不同的存储单元,可用看成类似键值对的方 阅读全文
posted @ 2017-12-14 14:29 liuxiaopang 阅读(181) 评论(0) 推荐(0) 编辑