随笔分类 - 分布式系统
摘要:一:HBase简介 (一)HBase了解(实现对大<普通PC集群、十亿行,百万列>数据随机、实时存取操作) 前提: 基于Hdfs的查询由于其存储机制的限制,导致查询速度响应缓慢,无法解决一些对速度有要求的场景;传统数据库虽然查询快,但是无法支撑海量数据。因此就出现了HBase这种"数据库"。 HBa
阅读全文
摘要:一:数据表建立 (一)创建数据库 hive> create database hadoop; hive> use hadoop; 数据库位置在 hdfs://ns1/user/hive/warehouse/hadoop.db目录下 (二)建表 hive> create table t_order(i
阅读全文
摘要:一:hive简介 Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常
阅读全文
摘要:一:HDFS系统架构 (一)利用secondary node备份实现数据可靠性 (二)问题:NameNode的可用性不高,当NameNode节点宕机,则服务终止 二:HA架构 提高NameNode服务的可用性 架构中至少有两个NameNode节点 (此处以两个NameNode举例) (一)两个NN节
阅读全文
摘要:一:什么是ZooKeeper Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等 (一)原始架构 但是当服务器宕机,则应用全部瘫痪。无法做到高可用。应该使用集群实
阅读全文
摘要:一:实验说明 用于统计各个单词在各个文件中出现的次数,并按序输出 (一)实验数据 a.txt hello kitty flink hello tom spark with hello mark spark hadoop hadoop hadoop b.txt hello tom tom hadoop
阅读全文
摘要:一:MapReduce框架 (结合YARN框架) 补充:MapReduce框架知道我们写的map-reduce程序的运行逻辑。我们写的map-reduce中并没有管理层的任务运行分配逻辑,该逻辑被封装在MapReduce框架里面,被封装为MRAppMaster类,该类用于管理整个map-reduce
阅读全文
摘要:一:分组原理(HashPartitioner) /** Partition keys by their {@link Object#hashCode()}. */ @InterfaceAudience.Public @InterfaceStability.Stable public class Ha
阅读全文
摘要:承接上文:Hadoop基础 流量求和MapReduce程序及自定义数据类型 一:实验数据 对上一篇文章中的数据进行排序处理: 13480253104 180 200 380 13502468823 102 7335 7437 13560439658 5892 400 6292 13600217502
阅读全文
摘要:一:测试数据 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-
阅读全文
摘要:补充:下载Hadoop源码 一:YARN框架:进行资源调度 (一)YARN框架流程图 注意:yarn框架只做资源的管理,如果要运行一个程序,则会为该程序分配节点、内存、cpu等资源,至于该程序如何运行,yarn框架不进行管理。故也不会知道mapreduce的运行逻辑 。同样因为这样的松耦合,yarn
阅读全文
摘要:注:该文章承接上一篇:Hadoop基础 MapReduce实现 一:YARN框架:进行资源调度 (一)YARN框架流程图 注意:yarn框架只做资源的管理,如果要运行一个程序,则会为该程序分配节点、内存、cpu等资源,至于该程序如何运行,yarn框架不进行管理。故也不会知道mapreduce的运行逻
阅读全文
摘要:一:MapReduce思想 (一)MapReduce解决的问题 1.如何实现将代码分发到集群中节点中,并且如何运行起来 2.将代码分发到哪些指定机器中运行 3.实时监控节点运行情况 4.结果如何汇总 总之:将我们简单的业务逻辑很方便的扩展到海量数据环境下的进行分布式运算 (二)MapReduce基本
阅读全文
摘要:一:RPC框架封装思想 (一)实现原理 RPC(Remote Procedure Call)远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。 RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。 在OSI网络通信模型中,RPC跨越
阅读全文
摘要:补充:Eclipse自动补全快捷键 在Windows下自动补全快捷键是Alt+/ 在Linux下自动补全快捷键是ctrl+空格 一:导入jar包 (一)定义用户依赖库 (二)导入 hdfs基础jar包 (三)导入hdfs基础jar包所依赖的库 (四)导入公共jar包 (五)导入公共jar包所需lib
阅读全文
摘要:一:安装JDK hadoop2.x最低jdk版本要求是:jdk1.7(不过推荐用最新的:jdk1.8,因为jdk是兼容旧版本的,而且我们使用的其他软件可能要求的jdk版本较高) 下载地址:https://www.oracle.com/technetwork/java/javase/downloads
阅读全文
摘要:一:设置静态IP (一)进入配置页面 (二)设置手动配置,IP,子网掩码,网关,DNS解析 1.使用ifconfig查看IP网络地址和子网掩码 网络地址192.168.58.X,子网掩码255.255.255.0 2.使用netstat -rn查看网关信息 (三)配置静态IP (四)网络服务重新启动
阅读全文
摘要:一:Hadoop基本概念 一个分布式系统基础架构,由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。 充分利用集群的威力进行高速运算和存储。 Hadoop的框架最核心的设计就是:HDFS和MapReduce 二:Hadoop解决问题 1.海量数据的存储(HDFS)
阅读全文

浙公网安备 33010602011771号