摘要:写流程 1.Client从缓存中定位region,没有则访问zookeeper,获取meta表所在的Region Server位置 2.去相应的Region Server获取meta表,存到Client的缓存里 3.从meta表中获取region信息,得到Namespace、表名和RowKey等相关
阅读全文
摘要:HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,NoSQL数据库 HBase数据模型之逻辑结构 表的主键(Row Key),按照字典序排序,且是唯一的存在。 新建table的时候 只需要创建列族,不同的列族放在HDFS中不同的文件夹存储,列是put中动态添加的 re
阅读全文
摘要:Hive是什么? 个人理解是把存储在hdfs上的数据映射位一张数据库表,提供类sql(HQL)语句的查询,方便数据的分析,查询。另外一点就是自动的把HQL转化为MapRudecu、Tez、Spark执行。 Hive的架构 用户接口:可以是hive shell,jdbc(java 访问hive),we
阅读全文
摘要:ZAB协议是什么,为了解决什么事情。 ZAB协议是Zookeeper Atomic Broacdcast的缩写,译为原子广播协议。解决了zookeeper中事务的最终一致性。 ZAB协议的模式 当集群启动时,或者leader节点挂掉,ZAB协议就会进入到恢复模式,然后会选举出新的leader,当le
阅读全文
摘要:HDFS是存储模型,把数据进行切块,散列到各个节点,提供物理支持。MapReduce写好的程序怎么向文件移动,即计算向数据移动。需要HDFS暴露数据的位置,然后进行资源管理和任务调度。 框架角色 client 1.会根据每次的计算数据,咨询NameNode元数据(block的相关信息)算split,
阅读全文
摘要:MAP: 映射、变换、过滤 1进N出 Reduce: 分解、缩小、归纳 一组进N出 (KEY,VALUE): 键值对的键划分数据分组 MapReduce流程图 MapTask 1.切片会格式化,然后调用map方法 2.map的输出要映射成KV,KV会参与分区计算,算出分区号P,最终输出(K,V,P)
阅读全文
摘要:理论知识点 存储模型 文件线性按字节切割成block,具有offset,id(所有的文件都可以看作字节数组) 文件与文件的block大小可以不一样 一个文件除了最后一个block,其他的block大小一致 block的大小根据硬件的I/O特性调整(1.X默认是64M,2.X默认是128M) bloc
阅读全文