liuxiaopang - 博客园

2018年5月17日

摘要： Hive主要为了简化MapReduce流程，使非编程人员也能进行数据的梳理，即直接使用sql语句代替MapReduce程序 Hive建表的时候元数据（表明，字段信息等）存于关系型数据库中，数据存于HDFS中。此元数据与HDFS中的元数据需要区分清楚，HDFS中元数据（文件名，文件长度等）存于Nam 阅读全文

posted @ 2018-05-17 17:27 liuxiaopang 阅读(152) 评论(0) 推荐(0) 编辑

二十六、Hadoop学习笔记————Hadoop Yarn的简介复习

摘要： 1. 介绍 YARN（Yet Another Resource Negotiator）是一个通用的资源管理平台，可为各类计算框架提供资源的管理和调度。之前有提到过，Yarn主要是为了减轻Hadoop1中JobTracker的负担，对其进行了解耦。现在通常都会使用Hadoop Yarn，因为其稳定性阅读全文

posted @ 2018-05-17 16:46 liuxiaopang 阅读(268) 评论(0) 推荐(0) 编辑

2017年12月21日

二十四、Hadoop学记笔记————Spark的架构

摘要： master为主节点一个集群中可能运行多个application，因此也可能会有多个driver DAG Scheduler就是讲RDD Graph拆分成一个个stage 一个Task对应一个SparkEnv 客户端提交请求，然后master生成driver，生成对应的SparkContext，然阅读全文

posted @ 2017-12-21 18:27 liuxiaopang 阅读(121) 评论(0) 推荐(0) 编辑

二十三、Hadoop学记笔记————Spark简介与计算模型

摘要： spark优势在于基于内存计算，速度很快，计算的中间结果也缓存在内存，同时spark也支持streaming流运算和sql运算 Mesos是资源管理框架，作为资源管理和任务调度，类似Hadoop中的Yran Tachyon是分布式内存文件系统 Spark是核心计算引擎，能够将数据并行大规模计算 Sp 阅读全文

posted @ 2017-12-21 17:29 liuxiaopang 阅读(325) 评论(0) 推荐(0) 编辑

2017年12月19日

二十二、Hadoop学记笔记————Kafka 基础实战：消费者和生产者实例

摘要： kafka的客户端也支持其他语言，这里主要介绍python和java的实现，这两门语言比较主流和热门图中有四个分区，每个图形对应一个consumer，任意一对一即可获取topic的分区数，每个分区创建一个进程消费分区中的数据。每个进程的实例中，先要创建连接kafka的实例，然后指定连接到哪个t 阅读全文

posted @ 2017-12-19 18:40 liuxiaopang 阅读(622) 评论(0) 推荐(0) 编辑

2017年12月18日

二十一、Hadoop学记笔记————kafka的初识

摘要：这些场景的共同点就是数据由上层框架产生，需要由下层框架计算，其中间层就需要有一个消息队列传输系统 Apache flume系统，用于日志收集 Apache storm系统，用于实时数据处理 Spark系统，用于内存数据处理 elasticsearch系统，用于全文检索 broker中每个partit 阅读全文

posted @ 2017-12-18 16:17 liuxiaopang 阅读(149) 评论(0) 推荐(0) 编辑

2017年12月15日

二十、Hadoop学记笔记————Hive On Hbase

摘要： Hive架构图：一般用户接口采用命令行操作， hive与hbase整合之后架构图：使用场景场景一：通过insert语句，将文件或者table中的内容加入到hive中，由于hive和hbase已经整合，因此也会加入到hbase当中场景二：hbase不支持join或者gruop等，可以通过这种方阅读全文

posted @ 2017-12-15 10:38 liuxiaopang 阅读(289) 评论(0) 推荐(0) 编辑

2017年12月14日

十九、Hadoop学记笔记————Hbase和MapReduce

摘要：概要： hadoop和hbase导入环境变量：要运行Hbase中自带的MapReduce程序，需要运行如下指令，可在官网中找到：如果遇到如下问题，则说明Hadoop的MapReduce没有权限访问Hbase的jar包：参考官网可解决：运行后解决：导入数据运行指令： tsv是指以制表符为分隔阅读全文

posted @ 2017-12-14 18:44 liuxiaopang 阅读(2760) 评论(0) 推荐(0) 编辑

十八、Hadoop学记笔记————Hbase架构

摘要： Hbase结构图： Client，Zookeeper，Hmaster和HRegionServer相互交互协调，各个组件作用如下：这几个组件在实际使用过程中操作如下所示： Region定位，先读取zookeeper中的文件，得到root表信息，然后得到meta表的信息，从而操作用户表，0.98之后h 阅读全文

posted @ 2017-12-14 16:47 liuxiaopang 阅读(177) 评论(0) 推荐(0) 编辑

十七、Hadoop学记笔记————Hbase入门

摘要：简而言之，Hbase就是一个建立在Hdfs文件系统上的数据库（mysql，orecle等），不同的是Hbase是针对列的数据库 Hbase和普通的关系型数据库区别如下： Hbase有一些基本的术语，主键，列族，时间戳和存储单元：一个行健有多个列族，每个列族下有不同的存储单元，可用看成类似键值对的方阅读全文

posted @ 2017-12-14 14:29 liuxiaopang 阅读(181) 评论(0) 推荐(0) 编辑