12 2018 档案
摘要:Yarn的概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 Yarn的重要概念 1、 yarn并不清楚用户提交的程序的运行机制 2、 yarn只提供运算资源的调度(用户程序向yarn
阅读全文
摘要:MapReducer基本概念 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 基本结构 一个完整的mapr
阅读全文
摘要:转自:https://blog.csdn.net/xinzhi8/article/details/71455883 操作: 其中一个表较小,但是key集中 group by 维度过小,某值的数量过多 原因: 1)、key分布不均匀 2)、业务数据本身的特性 3)、建表时考虑不周 4)、某些SQL语句
阅读全文
摘要:数据倾斜:就是大量的相同key被partition分配到一个分区里,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长, 这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的re
阅读全文
摘要:Zookeeper概念简介: Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务 A、zookeeper是为别的分布式程序服务的 B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) C、Zookeeper所提供的服务涵盖:主从协调、服
阅读全文
摘要:Hbase Shell操作 创建表:create ‘table1’, ‘tab1’, ‘tab2’ 回车即可 说明:创建表table1,列族2个,分别为tab1和tab2 列出所有表:list 查看表的构造:describe "table1" 插入数据:put ‘table1’, ‘rk-00001
阅读全文
摘要:Rowkey设计 Region: 基于RowKey的分区,可理解成MySQL的水平切分。 每个Region Server就是Hadoop集群中一台机器上的一个进程。 比如我们的有1-300号的RowKey, 那么1-100号RowKey的行被分配到Region Server 1上,同样,101-20
阅读全文
摘要:写操作流程 (1) Client通过Zookeeper的调度,向RegionServer发出写数据请求,在Region中写数据。 (2) 数据被写入Region的MemStore,直到MemStore达到预设阈值。 (3) MemStore中的数据被Flush成一个StoreFile。 (4) 随着
阅读全文
摘要:HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组
阅读全文
摘要:物理模型 每个column family存储在HDFS上的一个单独文件中,空值不会被保存。 Key 和 Version number在每个column family中均有一份; HBase为每个值维护了多级索引,即:<key, columnfamily, columnname, timestamp>
阅读全文
摘要:Hbase是什么 HBase是一个分布式的、面向列的开源数据库,是一个NoSQL数据库,它是基于列的而不是基于行的模式, 是一个高可用、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 上图描述了Hadoop EcoSystem中的各层
阅读全文
摘要:HDFS功能: 将大文件、大批量文件,分布式存放在大量服务器上。 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重要特性如下: (1)HDFS中的文件在物理上是分块存储(block),块
阅读全文
摘要:什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive架构图 Jobtracker是hadoop1.x中的组件,它的功能相当于: Resourcemanager+AppMaster TaskTracker 相当于:
阅读全文
摘要:Kafka写入流程: 1.producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader 2. producer 将消息发送给该 leader 3. leader 将消息写入本地 log 4. followers 从 lea
阅读全文
摘要:Kafka消费分组,消息消费原理 同一个消费组里的消费者不能消费同一个分区,不同消费组的消费组可以消费同一个分区 Kafka分区分配策略 在 Kafka 内部存在两种默认的分区分配策略:Range 和 RoundRobin。当以下事件发生时,Kafka 将会进行一次分区分配: 同一个 Consume
阅读全文
摘要:Kafka安装: 下载kafka_2.10-0.8.2.1 1.关闭防火墙 2.修改配置文件 server.properties broker.id=1log.dirs= /usr/kafka_2.10-0.8.2.1/data //最后不要写logzookeeper.connect=master:
阅读全文
摘要:HDFS数据存储 HDFS client上传数据到HDFS时,首先,在本地缓存数据,当数据达到一个block大小时。请求NameNode分配一个block。 NameNode会把block所在的DataNode的地址告诉HDFS client。 HDFS client会直接和DataNode通信,把
阅读全文
摘要:开发工具:IDEA mapreduce实现思路: Map阶段: a) 从HDFS的源数据文件中逐行读取数据 b) 将每一行数据切分出单词 c) 为每一个单词构造一个键值对(单词,1) d) 将键值对发送给reduce Reduce阶段: a) 接收map阶段输出的单词键值对 b) 将相同单词的键值对
阅读全文
摘要:Redis数据结构图: Strings型 <String key,String value>: keys * 查看所有key get 获取key的value值 append 向key对应的value追加内容 Exists 判断key是否存在,存在返回1,不存在返回0 Set 当key存在会把key原
阅读全文
摘要:Redis概述 Redis是一个开源,先进的key-value存储,并用于构建高性能,可扩展的应用程序的完美解决方案。 Redis从它的许多竞争继承来的三个主要特点: Redis数据库完全在内存中,使用磁盘仅用于持久性。 相比许多键值数据存储,Redis拥有一套较为丰富的数据类型。String,Li
阅读全文
摘要:设置属性: //设置本地执行作set hive.exec.mode.local.auto=true; //设置动态分区 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nostrict; //设置r
阅读全文
摘要:下载版本:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网:http://mirror.bit.edu.cn/apache/sqoop/1.4.6/ jdbc驱动:mysql-connector-java-5.1.46.jar 把jdbc驱动包放到sqoop
阅读全文
摘要:CentOS6.5安装MySQL5.7以hadoop用户登录系统,1.检测系统是否已经安装过mysql或其依赖,若已装过要先将其删除,否则第4步使用yum安装时会报错: #查看mysql是否安装,如果已经安装需要卸载,如果是 sudo rpm -qa|grep mysql 2、如果存在mysql,依
阅读全文
摘要:官网原文链接https://docs.oracle.com/javase/8/docs/technotes/guides/install/linux_jdk.html#BJFJHFDD下载链接http://www.oracle.com/technetwork/java/javase/download
阅读全文
摘要:Linux的文件权限与目录配置 在linux 中每个用户必须属于一个组,而Linux下有三种组的概念,如下: 文件所拥有者 用户所在组 其他组 组操作: 增加一个组:groupadd test 修改组名:groupmod -n test test2 删除组:groupdel test2 查看组(当前
阅读全文

浙公网安备 33010602011771号