上一页 1 ··· 6 7 8 9 10 11 12 13 14 15 下一页
摘要: 高可用 在HBase中HMaster负责监控HRegionServer的生命周期,均衡RegionServer的负载,如果HMaster挂掉了,整个HBase集群就出问题了,所以HBase支持对HMaster的高可用配置。 高可用配置是为了解决主从架构的单点失效故障问题。所以要对Master进行一个 阅读全文
posted @ 2020-03-14 19:02 Tanglement 阅读(151) 评论(0) 推荐(0)
摘要: 之前有操作过HBase和Hive的案例,将30w条数据从Hive导入HBase。使用sqoop可以快速简单做到,但是在最新版HBase2.0与最新版Hive3.0之间,旧版sqoop不行,因此当时使用了JDBC来连接两者,达到数据导出的目的。 HBase与Hive的对比 Hive 作为数据仓库,Hi 阅读全文
posted @ 2020-03-14 17:57 Tanglement 阅读(244) 评论(0) 推荐(0)
摘要: 感觉效率不是很高,是否能用sqoop来解决HBase与其他文件系统的数据导入导出。 通过HBase的相关JavaApi,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件导入HBase的表中,或我们从HBase的表中读取一些原始数据用于MapReduc 阅读全文
posted @ 2020-03-14 13:45 Tanglement 阅读(147) 评论(0) 推荐(0)
摘要: MapReduce程序瓶颈 计算机性能 CPU、内存、磁盘、网络 I/O操作优化 数据倾斜 Map和Reduce数设置不合理 Map运行时间太长,导致Reduce等待过久 小文件过多 大量的不可分块的超大文件 spill次数过多 merge次数过多 MapReduce优化方法 主要从六个方面考虑:数 阅读全文
posted @ 2020-03-14 10:05 Tanglement 阅读(349) 评论(0) 推荐(0)
摘要: Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于分布式的操作系统平台。 Yarn基本架构 Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。 ResourceManager的作用: 处理客户端请 阅读全文
posted @ 2020-03-13 19:54 Tanglement 阅读(206) 评论(0) 推荐(0)
摘要: Reduce Join工作原理 Map端的主要工作:对来自不同表或文件的key/value对,打上标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加标志作为value,最后进行输出 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组中 阅读全文
posted @ 2020-03-13 16:04 Tanglement 阅读(198) 评论(0) 推荐(0)
摘要: 常用数据序列化类型 Java类型 | Hadoop Writable类型 | boolean | BooleanWritable byte | ByteWritable int | IntWritable String | Text map | MapWritable array | ArrayWr 阅读全文
posted @ 2020-03-13 11:40 Tanglement 阅读(214) 评论(0) 推荐(0)
摘要: 以下API均为HBase API 3.0版本。 API3.0与API2.0对比 Put、Delete、Scan类的API没有发生太多改变 HTableDescriptor类被TableDescriptorBuilder替代,HColumnDescriptor被ColumnFamilyDescript 阅读全文
posted @ 2020-03-11 20:19 Tanglement 阅读(1501) 评论(0) 推荐(1)
摘要: HBase简介 HBase的原型是BigTable HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,可以廉价搭建大规模结构化存储集群 HBase的目标是存储并处理大数据 利用HDFS作为文件存储系统,利用MapReduce处理数据,利用Zookeeper协同服务 扩展HRegion 阅读全文
posted @ 2020-03-11 11:17 Tanglement 阅读(334) 评论(0) 推荐(0)
摘要: 数据操作 加载数据 LOAD DATA 加载数据 LOCAL 本地数据,不加LOCAL就是分布式文件系统数据 OVERWRITE表示覆盖表中已有数据,否则表示追加 通过查询语言插入数据 这里使用了OVERWRITE关键字,之前分区内容会被覆盖掉。这是一次插入。 以下为多次插入,对多个分区目录插入数据 阅读全文
posted @ 2020-03-10 11:05 Tanglement 阅读(694) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 15 下一页