分布式系统 - 随笔分类(第2页) - 山上有风景

HBase(基于HDFS)的介绍及安装

摘要：一：HBase简介（一）HBase了解（实现对大<普通PC集群、十亿行，百万列>数据随机、实时存取操作）前提：基于Hdfs的查询由于其存储机制的限制，导致查询速度响应缓慢，无法解决一些对速度有要求的场景；传统数据库虽然查询快，但是无法支撑海量数据。因此就出现了HBase这种"数据库"。 HBa 阅读全文

posted @ 2020-03-03 14:46 山上有风景阅读(1373) 评论(0) 推荐(0)

hive(基于mapreduce)的使用

摘要：一：数据表建立（一）创建数据库 hive> create database hadoop; hive> use hadoop; 数据库位置在 hdfs://ns1/user/hive/warehouse/hadoop.db目录下（二）建表 hive> create table t_order(i 阅读全文

posted @ 2020-03-02 20:10 山上有风景阅读(2126) 评论(0) 推荐(1)

hive(基于mapreduce)的介绍及安装

摘要：一：hive简介 Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。 Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常阅读全文

posted @ 2020-03-02 10:31 山上有风景阅读(638) 评论(0) 推荐(0)

分布式集群HA模式部署

摘要：一：HDFS系统架构（一）利用secondary node备份实现数据可靠性（二）问题：NameNode的可用性不高，当NameNode节点宕机，则服务终止二：HA架构提高NameNode服务的可用性架构中至少有两个NameNode节点（此处以两个NameNode举例）（一）两个NN节阅读全文

posted @ 2020-02-28 16:21 山上有风景阅读(3011) 评论(0) 推荐(0)

zooKeeper集群搭建

摘要：一：什么是ZooKeeper Zookeeper 是 Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等（一）原始架构但是当服务器宕机，则应用全部瘫痪。无法做到高可用。应该使用集群实阅读全文

posted @ 2020-02-26 22:09 山上有风景阅读(584) 评论(0) 推荐(0)

Hadoop基础---倒排索引实现

摘要：一：实验说明用于统计各个单词在各个文件中出现的次数，并按序输出（一）实验数据 a.txt hello kitty flink hello tom spark with hello mark spark hadoop hadoop hadoop b.txt hello tom tom hadoop 阅读全文

posted @ 2020-02-25 10:18 山上有风景阅读(434) 评论(0) 推荐(0)

Hadoop基础---shuffle机制（进一步理解Hadoop机制）

摘要：一：MapReduce框架（结合YARN框架）补充：MapReduce框架知道我们写的map-reduce程序的运行逻辑。我们写的map-reduce中并没有管理层的任务运行分配逻辑，该逻辑被封装在MapReduce框架里面，被封装为MRAppMaster类，该类用于管理整个map-reduce 阅读全文

posted @ 2020-02-24 18:11 山上有风景阅读(869) 评论(0) 推荐(0)

Hadoop基础---MapReduce程序实现自定义分组（进一步理解Hadoop机制---实现reduce task并发）

摘要：一：分组原理（HashPartitioner) /** Partition keys by their {@link Object#hashCode()}. */ @InterfaceAudience.Public @InterfaceStability.Stable public class Ha 阅读全文

posted @ 2020-02-23 21:51 山上有风景阅读(387) 评论(0) 推荐(0)

Hadoop基础---MapReduce对数据进行排序

摘要：承接上文：Hadoop基础流量求和MapReduce程序及自定义数据类型一：实验数据对上一篇文章中的数据进行排序处理： 13480253104 180 200 380 13502468823 102 7335 7437 13560439658 5892 400 6292 13600217502 阅读全文

posted @ 2020-02-23 19:40 山上有风景阅读(2070) 评论(0) 推荐(0)

Hadoop基础---流量求和MapReduce程序及自定义数据类型

摘要：一：测试数据 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1- 阅读全文

posted @ 2020-02-22 11:52 山上有风景阅读(602) 评论(1) 推荐(0)

Hadoop基础---MapReduce及YARN中job提交源码分析（进一步理解Hadoop机制）

摘要：补充：下载Hadoop源码一：YARN框架：进行资源调度（一）YARN框架流程图注意：yarn框架只做资源的管理，如果要运行一个程序，则会为该程序分配节点、内存、cpu等资源，至于该程序如何运行，yarn框架不进行管理。故也不会知道mapreduce的运行逻辑。同样因为这样的松耦合，yarn 阅读全文

posted @ 2020-02-22 10:25 山上有风景阅读(441) 评论(0) 推荐(0)

Hadoop基础---MapReduce的几种运行模式（方便调试）

摘要：注：该文章承接上一篇：Hadoop基础 MapReduce实现一：YARN框架：进行资源调度（一）YARN框架流程图注意：yarn框架只做资源的管理，如果要运行一个程序，则会为该程序分配节点、内存、cpu等资源，至于该程序如何运行，yarn框架不进行管理。故也不会知道mapreduce的运行逻阅读全文

posted @ 2020-02-20 20:14 山上有风景阅读(1261) 评论(0) 推荐(1)

Hadoop基础---MapReduce实现

摘要：一：MapReduce思想（一）MapReduce解决的问题 1.如何实现将代码分发到集群中节点中，并且如何运行起来 2.将代码分发到哪些指定机器中运行 3.实时监控节点运行情况 4.结果如何汇总总之：将我们简单的业务逻辑很方便的扩展到海量数据环境下的进行分布式运算（二）MapReduce基本阅读全文

posted @ 2020-02-19 08:40 山上有风景阅读(858) 评论(0) 推荐(0)

Hadoop基础---RPC框架思想及HDFS源码解析

摘要：一：RPC框架封装思想（一）实现原理 RPC（Remote Procedure Call）远程过程调用，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。 RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越阅读全文

posted @ 2020-02-18 10:47 山上有风景阅读(740) 评论(0) 推荐(0)

Hadoop基础---HDFS的Java客户端编写

摘要：补充：Eclipse自动补全快捷键在Windows下自动补全快捷键是Alt+/ 在Linux下自动补全快捷键是ctrl+空格一：导入jar包（一）定义用户依赖库（二）导入 hdfs基础jar包（三）导入hdfs基础jar包所依赖的库（四）导入公共jar包（五）导入公共jar包所需lib 阅读全文

posted @ 2020-02-15 15:22 山上有风景阅读(940) 评论(0) 推荐(0)

Hadoop的安装（2）---Hadoop配置

摘要：一：安装JDK hadoop2.x最低jdk版本要求是：jdk1.7（不过推荐用最新的：jdk1.8，因为jdk是兼容旧版本的，而且我们使用的其他软件可能要求的jdk版本较高）下载地址：https://www.oracle.com/technetwork/java/javase/downloads 阅读全文

posted @ 2020-02-13 20:13 山上有风景阅读(1488) 评论(0) 推荐(0)

Hadoop的安装（1）---linux基本配置

摘要：一：设置静态IP （一）进入配置页面（二）设置手动配置，IP，子网掩码，网关，DNS解析 1.使用ifconfig查看IP网络地址和子网掩码网络地址192.168.58.X，子网掩码255.255.255.0 2.使用netstat -rn查看网关信息（三）配置静态IP （四）网络服务重新启动阅读全文

posted @ 2020-02-12 17:31 山上有风景阅读(412) 评论(0) 推荐(0)

Hadoop基本概念

摘要：一：Hadoop基本概念一个分布式系统基础架构，由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop的框架最核心的设计就是：HDFS和MapReduce 二：Hadoop解决问题 1.海量数据的存储（HDFS）阅读全文

posted @ 2020-02-12 11:19 山上有风景阅读(1074) 评论(0) 推荐(0)

山上有风景

周围的人都比你厉害，你才会慢慢变强

随笔分类 - 分布式系统

公告