随笔分类 -  大数据+

摘要:摘自:https://blog.csdn.net/ychenfeng/article/details/74980531 https://blog.csdn.net/qq_24084925/article/details/78842844 Kafka是最初由Linkedin公司开发,是一个分布式、支持 阅读全文
posted @ 2018-03-23 14:19 ABO-阿博 阅读(208) 评论(0) 推荐(0)
摘要:准备环境: 7台Linux虚拟机都已经安装Hadoop2.X(是单机版)并且各服务器之间都已经配置SSH免密码登录。 我的安装步骤:每台机器先将单机版本部署;将02、03、11三台机安装好ZooKeeper;最后修改配置文件(配置文件复制给每台机器即可): 修改配置文件: 1、core-site.x 阅读全文
posted @ 2018-01-29 20:58 ABO-阿博 阅读(232) 评论(0) 推荐(0)
摘要:摘自:https://www.cnblogs.com/tgzhu/p/5790565.html hadoop2.X HA 原理: hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决 阅读全文
posted @ 2018-01-29 20:17 ABO-阿博 阅读(690) 评论(0) 推荐(0)
摘要:一、Zookeeper简介 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现(雅虎),是Hadoop和Hbase的重要组件。HBase内置有ZooKeeper,也可以使用外部ZooKeeper。ZooKeeper实现数据的高可用性、一致性 阅读全文
posted @ 2018-01-27 10:46 ABO-阿博 阅读(204) 评论(0) 推荐(0)
摘要:摘自:http://blog.csdn.net/zhang0558/article/details/53444533 序列化和反序列化以及hadoop数据类型 1.什么是序列化和反序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收 阅读全文
posted @ 2018-01-25 15:38 ABO-阿博 阅读(361) 评论(0) 推荐(0)
摘要:摘自:https://yq.aliyun.com/articles/5896 一、Yarn简介 Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。在介绍Yarn之前,我们先回头 阅读全文
posted @ 2018-01-24 09:58 ABO-阿博 阅读(274) 评论(0) 推荐(0)
摘要:Hadoop RPC机制 RPC:远程服务调用,底层就是通过网络实现跨服务的应用调用。WebService是最常见的应用。下图给RCP的基本原理:基本分为四层,序列化层、函数调用层、网络传输层、服务端框架层。 Hadoop的节点之间的通信、节点之间的心跳等都涉及跨服务应用的调用,也就是经常会运用RC 阅读全文
posted @ 2018-01-23 09:55 ABO-阿博 阅读(440) 评论(0) 推荐(0)
摘要:前言: HADOOP的核心组成部分:HDFS文件系统和Mapreduce。在构建这个大数据分布式应用框架的过程中,解决了很多了共性问题并且都封装为开源的框架,这些框架完全可以拿来用《Hadoop API》。 Pig 是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个 阅读全文
posted @ 2018-01-19 21:14 ABO-阿博 阅读(199) 评论(0) 推荐(0)
摘要:摘自:https://www.cnblogs.com/jiang-it/p/7943769.html http://blog.csdn.net/wangyang1354/article/details/50570903 Hive概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文 阅读全文
posted @ 2018-01-18 17:12 ABO-阿博 阅读(151) 评论(0) 推荐(0)
摘要:Hbase安装:http://blog.csdn.net/zwx19921215/article/details/41820199 1.上传hbase安装包 2.解压 3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-s 阅读全文
posted @ 2018-01-18 16:21 ABO-阿博 阅读(174) 评论(0) 推荐(0)
摘要:参考:http://www.open-open.com/lib/view/open1374979211233.html Apache Storm 是由Twitter开源的分布式实时计算系统。Storm可以非常容易并且可靠的处理无限的数据流。对比Hadoop的批处理,Storm是一个实时的、分布式的、 阅读全文
posted @ 2018-01-18 16:21 ABO-阿博 阅读(148) 评论(0) 推荐(0)
摘要:前提:阿里云服务器;64位系统,JDK7 64位,mysql在线安装,tomcat7; 一、安装JDK; 1、查看本机是否安装有JDK 2、如果没有安装或者已经卸载预装的JDK后,下载JDK:jdk-7u72-linux-x64.tar.gz; 将下载好的JDK上传至Linux服务器,本示例使用Xf 阅读全文
posted @ 2017-09-29 22:08 ABO-阿博 阅读(2232) 评论(0) 推荐(0)
摘要:说明: 搭建环境是VMware10下用的是Linux CENTOS 32位,Hadoop:hadoop-2.4.1 JAVA :jdk7 32位;本文是本人在网络上收集的HADOOP系列视频所附带的课堂笔记(这里直接抄过来的),记录备忘。 补充:1、虚拟机的网络配置,桥接模式:相当于虚拟机与实体机公 阅读全文
posted @ 2016-12-09 11:16 ABO-阿博 阅读(1480) 评论(0) 推荐(0)
摘要:一、Linux引导和启动流程 概述,计算机电源接通后通过BISO之后,没有问题,就会去硬盘上找到MBR(Main Boot Record 主引导记录区)位于整个硬盘的0磁道0柱面1扇区,它记录着主引导记录中包含了硬盘的一系列参数和一段引导程序,其中的硬盘引导程序的主要作用是检查分区表是否正确并且在系 阅读全文
posted @ 2016-12-08 23:18 ABO-阿博 阅读(5152) 评论(0) 推荐(0)
摘要:tar命令 我们知道在Windows下最常见的压缩文件就只有两种,一是,zip,另一个是.rar。可是Linux就不同了,它有.gz、.tar.gz、tgz、bz2、.Z、.tar等众多的压缩文件名,此外windows下的.zip和.rar也可以在Linux下使用,不过在Linux使用.zip和.r 阅读全文
posted @ 2016-12-07 12:29 ABO-阿博 阅读(489) 评论(0) 推荐(0)
摘要:前言: LINUX在之前仅仅了解一些皮毛知识,最近计划深入研究大数据,LINUX当然少不了,所以借此良机将LINUX也顺带添加进入学习的目录之中。为了知识的全面性,本文先恶补一下LINUX的基础,作为今后的学习查询。不在刻意深入学习,重点是HADOOP。 一、Linux Shell相关 Shell本 阅读全文
posted @ 2016-12-07 10:38 ABO-阿博 阅读(677) 评论(0) 推荐(0)