Hadoop - 随笔分类 - mxgboy

Hive简介

摘要：背景和概念 Hive是一个依赖于分布式存储的查询和管理大型数据集的数据仓库。传统的非大数据行业一般都是基于表进行数据存储和管理的，如果由于业务扩张或者其他原因迁移到HDFS平台上，那么需要将传统的SQL查询语句全部翻译成Map-reduce的程序实现，这个工作量是相当庞大的。好在SQL具有严谨和良好阅读全文

posted @ 2018-10-18 11:11 mxgboy 阅读(690) 评论(0) 推荐(0)

HA模式下的java api访问要点

摘要：在非HA架构的HDFS中，客户端要通过java接口调用HDFS时一般是在JobRunner的类中按照下面的方式：因为nodename只有一个节点所以会在代码中显式的指明要连接哪一个节点；但是在HA模式下有两台namenode节点，并不能按照这种方式，而是下面的方式：其中的ns就是nameserv 阅读全文

posted @ 2018-10-18 10:37 mxgboy 阅读(413) 评论(0) 推荐(0)

NameNode中的高可用方案

摘要：NN中元数据的可靠性是可以保证的，但是其可用性并不高，因为Namenode是单节点的，所以一旦这个节点不能工作，那么整个hdfs都不能工作，但是由于SecondaryNameNode的机制，所以，即便NameNode不能工作，元数据也不会丢失，人为介入之后是可以恢复的，不会导致数据丢失。因此可靠性高阅读全文

posted @ 2018-10-16 11:19 mxgboy 阅读(1821) 评论(0) 推荐(0)

服务治理框架dubbo中zookeeper的使用

摘要：Zookeeper提供了一套很好的分布式集群管理的机制，就是它这猴子那个几月层次型的目录树的数据结构，并对书中的节点进行有效的管理，从而可以设计出多种多样的分布式的数据管理模型；下面简要介绍下zookeeper在Dubbo中的应用。 dubbo主要解决了下图中描述的问题，像阿里巴巴这种规模的互联网公阅读全文

posted @ 2018-10-16 10:35 mxgboy 阅读(1718) 评论(0) 推荐(0)

map进程数量和reduce进程数量

摘要：1-map task的并发数量是由切片的数量决定的，有多少个切片就有启动多少个map task； 2-切片是一个逻辑的概念，指的是文件中数据的偏移量范围； 3-切片的具体大小应该根据所处理的文件大小来调整；例如：小文件的切片有多个block组成； reduce的并发数量由，partition分组决定阅读全文

posted @ 2018-10-15 15:12 mxgboy 阅读(268) 评论(0) 推荐(0)

Hadoop的序列化

摘要：普通的序列化需要将类型的继承结构也序列化，但是hadoop只序列化对象本身，忽略继承关系，因为hadoop中传输的自定义类型一般都是简单的类型，这样可以减少传输的序列化数据，降低网络带宽的使用。阅读全文

posted @ 2018-10-15 15:11 mxgboy 阅读(123) 评论(0) 推荐(0)

MR程序的几种提交运行模式

摘要：本地模式运行 1-在windows的eclipse里面直接运行main方法将会将job提交给本地执行器localjobrunner 输入输出数据可以放在本地路径下输入输出数据放在HDFS中：(hdfs://xxx:9000/wc/srcdata）,如果将hdfs的配置文件放在类路径下面，那么不用阅读全文

posted @ 2018-10-12 11:14 mxgboy 阅读(1688) 评论(0) 推荐(0)

RPC

摘要：RPC：远程过程调用进程之间相互调用远程过程调用有很多线程的框架，例如： 1-JAVA的RMI 2-Webservice 3-hadoop中的RPC hadoop中各个节点之间的通信都是使用RPC Hadoop中的RPC Hadoop中各个节点之间的交互都是基于RPC的，底层原理同上面所描述的。阅读全文

posted @ 2018-10-11 17:12 mxgboy 阅读(247) 评论(0) 推荐(0)

HDFS---NameNode管理元数据及HA模式

摘要：NameNode主要保存了下面的内容 1-维护元数据信息。Block和文件之间的关系，即某一个特定文件都有哪些Block； 2-每一个Block存储在什么位置（DataNode上面）； 3-维护HDFS上面虚拟的目录树； 4-响应客户端的请求； NameNode如何保证元数据的可靠性 fsimage 阅读全文

posted @ 2018-10-10 11:30 mxgboy 阅读(653) 评论(0) 推荐(0)

mxgboy

随笔分类 - Hadoop

公告