随笔分类 -  Hadoop

摘要:背景和概念 Hive是一个依赖于分布式存储的查询和管理大型数据集的数据仓库。传统的非大数据行业一般都是基于表进行数据存储和管理的,如果由于业务扩张或者其他原因迁移到HDFS平台上,那么需要将传统的SQL查询语句全部翻译成Map-reduce的程序实现,这个工作量是相当庞大的。好在SQL具有严谨和良好 阅读全文
posted @ 2018-10-18 11:11 mxgboy 阅读(690) 评论(0) 推荐(0)
摘要:在非HA架构的HDFS中,客户端要通过java接口调用HDFS时一般是在JobRunner的类中按照下面的方式: 因为nodename只有一个节点所以会在代码中显式的指明要连接哪一个节点;但是在HA模式下有两台namenode节点,并不能按照这种方式,而是下面的方式: 其中的ns就是nameserv 阅读全文
posted @ 2018-10-18 10:37 mxgboy 阅读(413) 评论(0) 推荐(0)
摘要:NN中元数据的可靠性是可以保证的,但是其可用性并不高,因为Namenode是单节点的,所以一旦这个节点不能工作,那么整个hdfs都不能工作,但是由于SecondaryNameNode的机制,所以,即便NameNode不能工作,元数据也不会丢失,人为介入之后是可以恢复的,不会导致数据丢失。因此可靠性高 阅读全文
posted @ 2018-10-16 11:19 mxgboy 阅读(1821) 评论(0) 推荐(0)
摘要:Zookeeper提供了一套很好的分布式集群管理的机制,就是它这猴子那个几月层次型的目录树的数据结构,并对书中的节点进行有效的管理,从而可以设计出多种多样的分布式的数据管理模型;下面简要介绍下zookeeper在Dubbo中的应用。 dubbo主要解决了下图中描述的问题,像阿里巴巴这种规模的互联网公 阅读全文
posted @ 2018-10-16 10:35 mxgboy 阅读(1718) 评论(0) 推荐(0)
摘要:1-map task的并发数量是由切片的数量决定的,有多少个切片就有启动多少个map task; 2-切片是一个逻辑的概念,指的是文件中数据的偏移量范围; 3-切片的具体大小应该根据所处理的文件大小来调整;例如:小文件的切片有多个block组成; reduce的并发数量由,partition分组决定 阅读全文
posted @ 2018-10-15 15:12 mxgboy 阅读(268) 评论(0) 推荐(0)
摘要:普通的序列化需要将类型的继承结构也序列化,但是hadoop只序列化对象本身,忽略继承关系,因为hadoop中传输的自定义类型一般都是简单的类型,这样可以减少传输的序列化数据,降低网络带宽的使用。 阅读全文
posted @ 2018-10-15 15:11 mxgboy 阅读(123) 评论(0) 推荐(0)
摘要:本地模式运行 1-在windows的eclipse里面直接运行main方法 将会将job提交给本地执行器localjobrunner 输入输出数据可以放在本地路径下 输入输出数据放在HDFS中:(hdfs://xxx:9000/wc/srcdata),如果将hdfs的配置文件放在类路径下面,那么不用 阅读全文
posted @ 2018-10-12 11:14 mxgboy 阅读(1688) 评论(0) 推荐(0)
摘要:RPC:远程过程调用 进程之间相互调用 远程过程调用有很多线程的框架,例如: 1-JAVA的RMI 2-Webservice 3-hadoop中的RPC hadoop中各个节点之间的通信都是使用RPC Hadoop中的RPC Hadoop中各个节点之间的交互都是基于RPC的,底层原理同上面所描述的。 阅读全文
posted @ 2018-10-11 17:12 mxgboy 阅读(247) 评论(0) 推荐(0)
摘要:NameNode主要保存了下面的内容 1-维护元数据信息。Block和文件之间的关系,即某一个特定文件都有哪些Block; 2-每一个Block存储在什么位置(DataNode上面); 3-维护HDFS上面虚拟的目录树; 4-响应客户端的请求; NameNode如何保证元数据的可靠性 fsimage 阅读全文
posted @ 2018-10-10 11:30 mxgboy 阅读(653) 评论(0) 推荐(0)