摘要: 1 体系图 HBase中的每张表都通过行键按照一定的范围被分割成多个子表(HRegion),默认一个HRegion超过256M就要被分割成两个,这个过程由HRegionServer管理,而HRegion的分配由HMaster管理。 HMaster 1、为Region server分配region 2 阅读全文
posted @ 2018-01-08 17:24 IT-執念 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 1 列值过滤器 SingleColumnValueFilter 对列值进行过滤。 扫描全表,用过滤器进行匹配,找出出满足过滤条件的元素。 SingleColumnValueFilter 参数:列族、列名、操作符、列值 操作符可以为: CompareOp.LESS:小于 CompareOp.LESS_ 阅读全文
posted @ 2018-01-08 16:25 IT-執念 阅读(1023) 评论(0) 推荐(0) 编辑
摘要: 1、列表、元组操作 列表是我们最以后最常用的数据类型之一,通过列表可以对数据实现最方便的存储、修改等操作,类似于其他语言中的数组。 定义列表 通过下标访问列表中的元素,下标从0开始计数 切片:取多个元素 追加: 插入: 修改: 删除: 扩展: 拷贝:浅拷贝 统计: 排序: 获取下标: 元组: 元组其 阅读全文
posted @ 2018-01-08 15:28 IT-執念 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 1.pom.xml 2、API操作 阅读全文
posted @ 2018-01-03 17:12 IT-執念 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 1、集群环境 Hadoop HA 集群规划 hadoop1 cluster1 nameNode HMaster hadoop2 cluster1 nameNodeStandby ZooKeeper ResourceManager HMaster hadoop3 cluster2 nameNode Z 阅读全文
posted @ 2018-01-03 10:29 IT-執念 阅读(1777) 评论(0) 推荐(0) 编辑
摘要: 1、集群规划 1.1 规划说明 hadoop1 cluster1 nameNode hadoop2 cluster1 nameNodeStandby ZooKeeper ResourceManager hadoop3 cluster2 nameNode ZooKeeper hadoop4 clust 阅读全文
posted @ 2018-01-02 14:45 IT-執念 阅读(1351) 评论(0) 推荐(0) 编辑
摘要: pyhon3.0 基础01 1 python解释器 Python的解释器很多,但使用最广泛的还是CPython。如果要和Java或.Net平台交互,最好的办法不是用Jython或IronPython,而是通过网络调用来交互,确保各程序之间的独立性。 2 HelloWorld程序 如果想要类似于执行s 阅读全文
posted @ 2017-12-27 11:54 IT-執念 阅读(279) 评论(0) 推荐(0) 编辑
摘要: sqoop 数据迁移 1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统。 导出数据:从Hadoop的文件系统中导出数据到关系数据库。 2 工作机制 阅读全文
posted @ 2017-12-18 18:32 IT-執念 阅读(449) 评论(0) 推荐(0) 编辑
摘要: Azkaban 工作流调度器 1 概述 1.1 为什么需要工作流调度系统 a)一个完整的数据分析系统通常都是由大量任务单元组成,shell脚本程序,java程序,mapreduce程序、hive脚本等。 b)各任务单元之间存在时间先后及前后依赖关系。 c)为了很好地组织起这样的复杂执行计划,需要一个 阅读全文
posted @ 2017-12-18 16:01 IT-執念 阅读(1044) 评论(0) 推荐(0) 编辑
摘要: 日志采集框架 Flume 1 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。 一般的采集需求,通过对flume的简单 阅读全文
posted @ 2017-12-18 14:38 IT-執念 阅读(1898) 评论(0) 推荐(0) 编辑