摘要: * Storm框架基础(一) Storm简述 如果你了解过SparkStreaming,那么Storm就可以类比着入门,在此我们可以先做一个简单的比较: 在SparkStreaming中: 我们曾尝试过每秒钟的实时数据处理,或者使用Window若干时间范围内的数据统一处理结果。亦或统计所有时间范围内 阅读全文
posted @ 2018-01-12 21:25 王振龙 阅读(256) 评论(0) 推荐(0)
摘要: * ClouderaManager与CDH 集群简述 对于企业而言,一般的集群大小规模大概是如下映射关系: 集群大小 小:10~30节点 中:100~300节点 大:1000+节点 对应所需的zookeeper集群规模大概是 小:3台 中:5台 大:7台 有些同学会说,学这玩意啥用啊?我之前集群环境 阅读全文
posted @ 2018-01-12 21:24 王振龙 阅读(2987) 评论(0) 推荐(0)
摘要: * SparkStreaming基础 打开之前构建好的Maven工程,如何构建?请参看SparkCore基础(二)的最后部分。 在SparkCore中,我们操作的数据都在RDD中,是Spark的一个抽象概念,也是一个抽象类,是由SparkContext对象sc转换得到的。 那么在SparkStrea 阅读全文
posted @ 2018-01-12 21:22 王振龙 阅读(132) 评论(0) 推荐(0)
摘要: * SparkSQL基础 起源: 1、在三四年前,Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。 2、Shark即Hive on Spark,本质上是通过Hive的HQL解析, 阅读全文
posted @ 2018-01-12 21:22 王振龙 阅读(195) 评论(0) 推荐(0)
摘要: * SparkCore基础(二) 继续探讨SparkCore,开门见山,不多废话。 SparkApplication结构探讨 包含关系: 之前我们运行过很多App了,其实每一个App都包含若干个Job任务; 而Job任务呢,一般都是由RDD的Action动作发出的eg:first、count、col 阅读全文
posted @ 2018-01-12 21:21 王振龙 阅读(276) 评论(0) 推荐(0)
摘要: * SparkCore基础(一) 学习Spark,首先要熟悉Scala,当然你说你会Python或者Java能不能玩Spark?能!但是不推荐,首推Scala,因为Scala非常便捷,而且Scala有非常好的交互式编程体验(当然了,在这里,Python也不差)。其次呢,我们要对Hadoop的MapR 阅读全文
posted @ 2018-01-12 21:20 王振龙 阅读(391) 评论(0) 推荐(0)
摘要: * HBase框架基础(五) 本节主要介绍HBase中关于分区的一些知识。 * HBase的RowKey设计 我们为什么要讨论rowKey的设计?或者说为什么很多工作岗位要求有rowKey的优化设计经验?这个我们需要简单的谈一谈HBase的存储情景。 简单讨论: ** 一个Table表可以划分为多个 阅读全文
posted @ 2018-01-12 21:17 王振龙 阅读(166) 评论(0) 推荐(0)
摘要: * Hadoop-CDH源码编译 这一节我们主要讲解一下根据CDH源码包手动编译的过程,至于为什么要使用CDH,前几节已经说明,那为什么又要自己手动编译,因为CDH的5.3.6对应的Hadoop2.5.0没有native动态库,很多压缩功能无法使用。 * 首先源码包下载: http://archiv 阅读全文
posted @ 2018-01-12 21:16 王振龙 阅读(1021) 评论(0) 推荐(0)
摘要: * HBase框架基础(四) 上一节我们介绍了如何使用HBase搞一些MapReduce小程序,其主要作用呢是可以做一些数据清洗和分析或者导入数据的工作,这一节我们来介绍如何使用HBase与其他框架进行搭配使用。 * HBase与Hive 在开始HBase与Hive搭配使用前,我们复习一下这两个框架 阅读全文
posted @ 2018-01-12 21:15 王振龙 阅读(250) 评论(0) 推荐(1)
摘要: * HBase框架基础(三) 本节我们继续讨论HBase的一些开发常识,以及HBase与其他框架协调使用的方式。在开始之前,为了框架之间更好的适配,以及复习之前HBase的配置操作,请使用cdh版本的HBase开启动相关服务,记得,配置HMaster的HA。 为了方便,cdh版本hbase下载传送门 阅读全文
posted @ 2018-01-12 21:14 王振龙 阅读(226) 评论(0) 推荐(1)
摘要: * Scala基础简述 本文章作为Scala快速学习的教程,前提环境是:我假设在此之前,你已经学会了Java编程语言,并且我们以随学随用为目标(在此不会深度挖掘探讨Scala更高级层次的知识)。其中语言基础部分,不再做大量重复的无意义工作,我会直接使用RUNOOB.COM中的一些例子做一些整合,OK 阅读全文
posted @ 2018-01-12 21:13 王振龙 阅读(251) 评论(0) 推荐(0)
摘要: * HBase框架基础(一) 官方网址:http://hbase.apache.org/ * HBase是什么妖怪? 要解释HBase,我们就先说一说经常接触到的RDBMS,即关系型数据库: ** mysql: *** 有开源社区版本的,有企业收费版本的 *** 遵循主从架构 *** 端口号:330 阅读全文
posted @ 2018-01-12 21:12 王振龙 阅读(255) 评论(0) 推荐(0)
摘要: * HBase框架基础(二) 上一节我们了解了HBase的架构原理和模块组成,这一节我们先来聊一聊HBase的读写数据的过程。 * HBase的读写流程及3个机制 HBase的读数据流程: 1、HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeep 阅读全文
posted @ 2018-01-12 21:12 王振龙 阅读(155) 评论(0) 推荐(0)
摘要: * 贴士Topic:启动所有集群节点 目的:在一台服务器上执行一个脚本,启动所有集群节点上的相关进程 描述:在学习过程中,你会发现Resourcemanager和HMaster等节点需要登录到节点所在机器启动 所需理论: Shell的区别 ** 登录Shell:粗放来讲,就是你手动使用CRT登录Li 阅读全文
posted @ 2018-01-12 21:10 王振龙 阅读(133) 评论(0) 推荐(0)
摘要: * Kafka框架基础 官网:kafka.apache.org 框架简介 Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。 相关概念 ** 生产 阅读全文
posted @ 2018-01-12 21:09 王振龙 阅读(235) 评论(0) 推荐(0)
摘要: * HUE搭配基础 首先简单说一下Hue框架的来源:HUE=HadoopUser Experience,看这名字就知道怎么回事了吧,没错,直白来说就是Hadoop用户体验,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给 阅读全文
posted @ 2018-01-12 21:07 王振龙 阅读(327) 评论(0) 推荐(0)
摘要: * Oozie框架基础 官方文档地址:http://oozie.apache.org/docs/4.0.0/DG_QuickStart.html 除Oozie之外,类似的框架还有: ** Zeus:https://github.com/michael8335/zeus2 ** Azkaban:htt 阅读全文
posted @ 2018-01-12 21:06 王振龙 阅读(293) 评论(0) 推荐(0)
摘要: Sqoop框架基础 本节我们主要需要了解的是大数据的一些协作框架,也是属于Hadoop生态系统或周边的内容,比如: ** 数据转换工具:Sqoop ** 文件收集库框架:Flume ** 任务调度框架:Oozie ** 大数据Web工具:Hue 这些框架为什么成为主流,请自行百度谷歌,此处不再赘述。 阅读全文
posted @ 2018-01-12 21:04 王振龙 阅读(318) 评论(0) 推荐(0)
摘要: * Flume框架基础 框架简介: ** Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ** Flume基于流式架构,容错性强,也很灵活简单,主要用于在线实时的引用分析。 宏观认知: ** Flume、Kafka用来实时进行 阅读全文
posted @ 2018-01-12 21:01 王振龙 阅读(324) 评论(0) 推荐(0)
摘要: * Hive框架基础(二) 我们继续讨论hive框架 * Hive的外部表与内部表 内部表:hive默认创建的是内部表 例如: create table table001 (name string , age string) location '/input/table_data'; 此时:会在HD 阅读全文
posted @ 2018-01-12 21:00 王振龙 阅读(296) 评论(0) 推荐(0)
摘要: * Hive框架基础(一) 一句话:学习Hive有毛用? 那么解释一下 毛用: * 操作接口采用类SQL语法,提供快速开发的能力(不会Java也可以玩运算) * 避免了去写MapReduce,减少开发人员的学习成本(MapReduce运算写断手) * 扩展功能很方便 * 数据库不等同于数据仓库 数据 阅读全文
posted @ 2018-01-12 20:59 王振龙 阅读(179) 评论(0) 推荐(0)
摘要: ** Hadoop框架基础(五) 已经部署了Hadoop的完全分布式集群,我们知道NameNode节点的正常运行对于整个HDFS系统来说非常重要,如果NameNode宕掉了,那么整个HDFS就要整段垮掉了,所以人类思考,能不能让世界多一点爱:),我们能不能弄个备用的NameNode,一旦正在使用的N 阅读全文
posted @ 2018-01-12 20:57 王振龙 阅读(264) 评论(0) 推荐(0)
摘要: ** Hadoop 框架基础(四) 上一节虽然大概了解了一下 mapreduce,徒手抓了海胆,不对,徒手写了 mapreduce 代码,也运行了出来。但是没有做更深入的理解和探讨。 那么…… 本节目标: * 深入了解 mapreduce 过程 * 成功部署 Hadoop 集群 ** mapredu 阅读全文
posted @ 2018-01-12 20:56 王振龙 阅读(238) 评论(0) 推荐(0)
摘要: ** Hadoop框架基础(三) 上一节我们使用eclipse运行展示了hdfs系统中的某个文件数据,这一节我们简析一下离线计算框架MapReduce,以及通过eclipse来编写关于MapReduce的代码,在Hadoop第一小节内容中,我们成功运行了官方的WordCount的案例,这一节我们自己 阅读全文
posted @ 2018-01-12 20:54 王振龙 阅读(155) 评论(0) 推荐(0)
摘要: ** Hadoop框架基础(二) 上一节我们讨论了如何对hadoop进行基础配置已经运行一个简单的实例,接下来我们尝试使用eclipse开发。 ** maven安装 简单介绍:maven是一个项目管理工具,主要用于项目构建,依赖管理,项目信息管理。 1、maven下载地址 链接:http://pan 阅读全文
posted @ 2018-01-12 20:53 王振龙 阅读(214) 评论(0) 推荐(0)
摘要: ** Hadoop框架基础(一) 学习一个新的东西,传统而言呢,总喜欢漫无目的的扯来扯去,比如扯扯发展史,扯扯作者是谁,而我认为这些东西对于刚开始接触,并以开发为目的学者是没有什么帮助的,反而让人分了心,比如你玩LOL的时候,去玩某个英雄的时候,一般你是不会先看英雄的故事背景介绍的,而是读读技能介绍 阅读全文
posted @ 2018-01-12 20:52 王振龙 阅读(285) 评论(0) 推荐(0)
摘要: ** Linux基本操作常用命令(四) ** Linux系统管理命令 1、top:查看系统资源,每隔三秒刷新一次,按q:退出浏览状态 2、free:查看内存信息,-m,以MB单位显示 3、netstat:查看端口信息,一般用于查看端口是否被占用等 4、ifconfig:查看网络信息 5、df:-h查 阅读全文
posted @ 2018-01-12 20:50 王振龙 阅读(133) 评论(0) 推荐(0)
摘要: ** Linux基本操作常用命令(三) ** Linux的软件包 Linux的软件把分为“源码包”和“二进制包” 源码包:免费,开源 二进制包:系统默认包,即RPM包(上一节我们通过rpm卸载过openJDK),比较常用 特点: * 经过编译 * 安装,卸载,升级,查询直接使用命令来操作即可 * 安 阅读全文
posted @ 2018-01-12 20:49 王振龙 阅读(246) 评论(0) 推荐(0)
摘要: ** Linux基本操作常用命令(二) ** 用户名与主机名 当你进入Linux终端时,你会看到如下样式的图片: 其中[z@z01]方括号内的z表示当前系统登录操作的用户名,@后的z01表示当前主机名,每个人的情况不一样,默认的主机名是:localhost 那么下面我们首先来看一下在CentOS 7 阅读全文
posted @ 2018-01-12 20:47 王振龙 阅读(201) 评论(0) 推荐(0)
摘要: ** 一些老生常谈的问题 一提起Linux,行业内无人不知《鸟哥私房菜》,就是放在胸口可以防弹的那种书,虽说经典、全面,但对于初学者而言,确实过于厚重,而且容易学着后边忘了前边,毕竟实际操作时不会一下涉及到全部的命令。 所以建议大家平时把此书当做工具书,没事翻翻,之后用的多了,自然就记住了。那么现在 阅读全文
posted @ 2018-01-12 20:41 王振龙 阅读(158) 评论(0) 推荐(0)
摘要: ** 开始前的一些其他问题: * 主板虚拟化的开启:要运行一些操作系统,虚拟化软件和虚拟机,硬件虚拟化就需要启用。大多数情况下,不需要虚拟化技术的操作系统可以正常运行在启用了虚拟化技术的系统,但有些需要这种技术的操作系统,必须启用虚拟化技术才能运行。不同型号的电脑主板开启方式有些差异,请自行百度自己 阅读全文
posted @ 2018-01-12 20:39 王振龙 阅读(268) 评论(0) 推荐(0)
摘要: ** 虚拟机安装CentOS系统 以下步骤会连续给出截图,大家自行校对即可。 首先打开虚拟机,出现的界面如上一篇文章截图所示。 ** 配置虚拟机 步骤: 1、点击“创建新的虚拟机” 2、选择“典型”,然后下一步 3、选择“稍后安装操作系统”,接着下一步 4、“客户机操作系统”选择Linux,版本选择 阅读全文
posted @ 2018-01-12 20:10 王振龙 阅读(460) 评论(0) 推荐(0)
摘要: ** 行业惯例:以扯犊子开场 Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性 阅读全文
posted @ 2018-01-12 19:37 王振龙 阅读(118) 评论(0) 推荐(0)
摘要: 这是一个为了帮助更多人了解、入门、提升大数据相关领域知识的系列教程,此系列教程是针对已经掌握了一些编程概念的同学朋友而设计的,具有如下特点: ** 对数据分析挖掘有浓厚兴趣,但又无从下手 ** 基于Linux平台开发,从Linux基础讲起 ** 最好拥有一点Java基础,对计算机的操作有些认识。 * 阅读全文
posted @ 2018-01-12 19:33 王振龙 阅读(144) 评论(0) 推荐(0)
Live2D