摘要:
Hadoop生态圈-使用MapReduce处理HBase数据 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.对HBase表中数据进行单词统计(TableInputFormat) 1>.准备环境 2>.编写Map端代码 3>.编写Reducer端代码 4>.编写主程序代码 5>
阅读全文
posted @ 2018-06-12 09:13
尹正杰
阅读(396)
推荐(0)
摘要:
Hadoop生态圈-注册并加载协处理器(coprocessor)的三种方式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 到目前为止,大家已经掌握了如何使用过滤器来减少服务器端通过网络返回到客户端的数据量。HBase中还有一些特性让用户甚至可以把一部分计算也移动到数据的存放端,他
阅读全文
posted @ 2018-06-10 15:03
尹正杰
阅读(953)
推荐(0)
摘要:
SHELL脚本编程循环篇-while循环 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.while循环的语法格式 while CONDITION; do 循环体 done 以上参数关键点说明: CONDITION: 循环控制条件,进入循环之前,先做一次判断;每一次循环之后会再
阅读全文
posted @ 2018-06-09 01:54
尹正杰
阅读(4018)
推荐(0)
摘要:
Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最优的写性能(能使I/O利用率达到饱和)进而出色的读性能,它充分利用了磁盘空间,支持特定列族切换可选压
阅读全文
posted @ 2018-06-08 10:51
尹正杰
阅读(314)
推荐(0)
摘要:
Hadoop生态圈-Hive快速入门篇之HQL的基础语法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客的重点是介绍Hive中常见的数据类型,DDL数据定义,DML数据操作以及常用的查询操作。如果你没有hive的安装环境的话,可以参考我之前分析搭建hive的笔记:http
阅读全文
posted @ 2018-06-08 10:34
尹正杰
阅读(1428)
推荐(0)
摘要:
Hadoop生态圈-Hive快速入门篇之Hive环境搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据仓库(理论性知识大多摘自百度百科) 1>.什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过
阅读全文
posted @ 2018-06-08 10:32
尹正杰
阅读(994)
推荐(1)
摘要:
Hadoop生态圈-zookeeper的API用法详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.测试前准备 1>.开启集群 [yinzhengjie@s101 ~]$ more `which xzk.sh` #!/bin/bash #@author :yinzhengj
阅读全文
posted @ 2018-06-08 10:27
尹正杰
阅读(477)
推荐(0)
摘要:
Hadoop生态圈-zookeeper完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客部署是建立在Hadoop高可用基础之上的,关于Hadoop高可用部署请参考:https://www.cnblogs.com/yinzhengjie/p/9070017.ht
阅读全文
posted @ 2018-06-08 10:25
尹正杰
阅读(975)
推荐(0)
摘要:
Hadoop基础-MapReduce的工作原理第一弹 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 在本篇博客中,我们将深入学习Hadoop中的MapReduce工作机制,这些知识将为我们随后学习写MapReduce高级编程奠定基础。 一.剖析MapReduce作业运行机制 Ma
阅读全文
posted @ 2018-06-07 23:02
尹正杰
阅读(601)
推荐(0)
摘要:
Hadoop基础-HDFS的读取与写入过程 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 为了了解客户端及与之交互的HDFS,NameNode和DataNode之间的数据流是什么样的,我们需要详细介绍一下HDFS的读取以及写入过程,本篇博客的观点是在我读《Hadoop权威指南,大
阅读全文
posted @ 2018-06-06 23:37
尹正杰
阅读(1986)
推荐(0)
摘要:
java基础-回调函数(callback) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 回调函数就是一个通过函数指针调用的函数。如果你把函数的指针(地址)作为参数传递给另一个函数,当这个指针被用来调用其所指向的函数时,我们就说这是回调函数。回调函数不是由该函数的实现方直接调用,
阅读全文
posted @ 2018-06-06 14:19
尹正杰
阅读(2650)
推荐(0)
摘要:
Hadoop基础-网络拓扑机架感知及其实现 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.网络拓扑结构 在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率,即带宽稀缺。这里的想法是将两个节点之间的带宽作为距离的衡量标准
阅读全文
posted @ 2018-06-05 22:11
尹正杰
阅读(2224)
推荐(0)
摘要:
Hadoop基础-HDFS数据清理过程之校验过程代码分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 想称为一名高级大数据开发工程师,不但需要了解hadoop内部的运行机制,还需要掌握hadoop在写入过程中的报文分析。当然代码的调试步骤是一个开发必须得会的技能!想要掌握这三个
阅读全文
posted @ 2018-06-04 22:59
尹正杰
阅读(953)
推荐(1)
摘要:
Hadoop基础-Protocol Buffers串行化与反串行化 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 我们之前学习过很多种序列化文件格式,比如python中的pickle序列化方式(https://www.cnblogs.com/yinzhengjie/p/85313
阅读全文
posted @ 2018-06-03 23:16
尹正杰
阅读(1069)
推荐(0)
摘要:
Hadoop基础-Apache Avro串行化的与反串行化 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Apache Avro简介 1>.Apache Avro的来源 Apache Avro 是一个中立性语言,它是有Hadoop之父Doug Cutting开发而来。因为ha
阅读全文
posted @ 2018-06-02 23:39
尹正杰
阅读(1291)
推荐(0)
摘要:
Hadoop基础-Idea打包详解之手动添加依赖(SequenceFile的压缩编解码器案例) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.编辑配置文件(pml.xml)(我们这里配置的是对“cn.org.yinzhengjie.compress.TestCompressC
阅读全文
posted @ 2018-06-01 23:29
尹正杰
阅读(1624)
推荐(0)
摘要:
Hadoop基础-SequenceFile的压缩编解码器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Hadoop压缩简介 1>.文件压缩的好处 第一:较少存储文件占用的磁盘空间,这样就加速数据在磁盘中的传输(比如源文件1G,经过压缩后只有10M,那么文件传输起来就相当的快
阅读全文
posted @ 2018-05-31 23:51
尹正杰
阅读(717)
推荐(0)
摘要:
hadoop基础-SequenceFile详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.SequenceFile简介 1>.什么是SequenceFile 序列文件我们称为SequenceFile,它是hadoop自身的一个序列化文件。 1 /* 2 @author :
阅读全文
posted @ 2018-05-30 23:41
尹正杰
阅读(2374)
推荐(1)
摘要:
Hadoop基础-序列化与反序列化(实现Writable接口) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.序列化简介 1>.什么是序列化 序列化也称串行化,是将结构化的对象转换成字节流,以便在网络上进行传输或者写入到磁盘进行永久性存储的过程。 2>.什么是反序列化 反序列
阅读全文
posted @ 2018-05-29 23:02
尹正杰
阅读(2978)
推荐(1)
摘要:
windows配置Python多版本共存 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 最近Python开发蛮火的,三年前我的一个运维朋友就告诉我说Python语言将来会很火,当时就三分钟热度,用Python写过一个聊天工具,工作中也时不时会用到它。但是对它的框架并不是很感冒。不
阅读全文
posted @ 2018-05-29 18:27
尹正杰
阅读(23282)
推荐(3)
摘要:
Hadoop生态圈-zookeeper本地搭建以及常用命令介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.下载zookeeper软件 下载地址:https://www.apache.org/dyn/closer.cgi/zookeeper/ 二.安装zookeeper 1
阅读全文
posted @ 2018-05-29 00:08
尹正杰
阅读(1297)
推荐(0)
摘要:
Hadoop基础-Hadoop的集群管理之服役和退役 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 在实际生产环境中,如果是上千万规模的集群,难免一个一个月会有那么几台服务器出点故障,在IDE机房这种事情几乎每个星期都会有那么几起事故发生,比如服务器断电,磁盘过慢,网络不同,核心
阅读全文
posted @ 2018-05-28 17:10
尹正杰
阅读(843)
推荐(0)
摘要:
Hadoop基础-Hadoop快照管理 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.快照的作用 快照可以迅速对文件(夹)进行备份,不产生新文件,使用差值存储,默认是禁用状态。因此,想要使用快照功能的话得先启用该功能!我们可以通过“hdfs dfsadmin” 命令来启动或者
阅读全文
posted @ 2018-05-28 12:19
尹正杰
阅读(851)
推荐(0)
摘要:
Hadoop基础-镜像文件(fsimage)和编辑日志(edits) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.查看日志镜像文件(如:fsimage_0000000000000000767)内容 1>.镜像文件的作用 通过查看上面的XML文件,可以明显的知道镜像文件是存放
阅读全文
posted @ 2018-05-27 23:27
尹正杰
阅读(8771)
推荐(1)
摘要:
Hadoop基础-HDFS分布式文件系统的存储 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS数据块 1>.磁盘中的数据块 每个磁盘都有默认的数据块大小,这个磁盘进行数据读/写的最小单位,构建于单个磁盘之上的上文件系统通过磁盘来管理该文件中的块,该文件系统块的大小可以
阅读全文
posted @ 2018-05-27 15:13
尹正杰
阅读(1106)
推荐(0)
摘要:
Hadoop基础-HDFS递归列出文件系统-FileStatus与listFiles两种方法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 fs.listFiles方法,返回LocatedFileStatus的迭代器,自带递归。但是它是继承于FileStatus的,而且构建函数是
阅读全文
posted @ 2018-05-26 19:42
尹正杰
阅读(11541)
推荐(1)
摘要:
Hadoop基础-HDFS的API实现增删改查 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客开发IDE使用的是Idea,如果没有安装Idea软件的可以去下载安装,如何安装IDE可以参考我的笔记:https://www.cnblogs.com/yinzhengjie/p/
阅读全文
posted @ 2018-05-26 18:17
尹正杰
阅读(3723)
推荐(1)
摘要:
Hadoop启动脚本分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 能看到这篇博客的你估计对Hadoop已经有一个系统的了解了,最起码各种搭建方式你应该是会的,不会也没有关系,可以参考我的笔记,里面有各种搭建方式,哈哈哈~ [yinzhengjie@s101 ~]$ cat
阅读全文
posted @ 2018-05-24 22:28
尹正杰
阅读(1492)
推荐(0)
摘要:
java基础-Idea开发工具介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 之前给大家介绍过一款Java的IDE叫eclipse,有些功能用起来不是很得心应手,尤其是在导报的时候,IDE在导报的时候总是串行等,可能之前学习Python被pycharm影响比较严重,开发pyc
阅读全文
posted @ 2018-05-23 23:36
尹正杰
阅读(2103)
推荐(0)
摘要:
Hadoop集群-HDFS集群中大数据运维常用的命令总结 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客会简单涉及到滚动编辑,融合镜像文件,目录的空间配额等运维操作简介。话不多少,直接上命令便于以后查看。 一.查看hadf的帮助信息 综上所述,hdfs有多个子选项,作为一
阅读全文
posted @ 2018-05-22 23:19
尹正杰
阅读(6304)
推荐(1)
摘要:
Hadoop部署方式-高可用集群部署(High Availability) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客的高可用集群是建立在完全分布式基础之上的,详情请参考:https://www.cnblogs.com/yinzhengjie/p/9065191.ht
阅读全文
posted @ 2018-05-21 23:48
尹正杰
阅读(1710)
推荐(0)
摘要:
Hadoop部署方式-完全分布式(Fully-Distributed Mode) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本博客搭建的虚拟机是伪分布式环境(https://www.cnblogs.com/yinzhengjie/p/9058415.html)链接克隆出来的,
阅读全文
posted @ 2018-05-20 23:29
尹正杰
阅读(1918)
推荐(0)
摘要:
Hadoop部署方式-伪分布式(Pseudo-Distributed Mode) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.下载相应的jdk和Hadoop安装包 JDK:http://www.oracle.com/technetwork/java/javase/downl
阅读全文
posted @ 2018-05-18 23:20
尹正杰
阅读(1968)
推荐(0)
摘要:
Hadoop部署方式-本地模式(Local (Standalone) Mode) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 Hadoop总共有三种运行方式。本地模式(Local (Standalone) Mode),伪分布式(Pseudo-Distributed Mode),
阅读全文
posted @ 2018-05-17 01:34
尹正杰
阅读(2619)
推荐(0)
摘要:
Hadoop基础原理 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 业内有这么一句话说:云计算可能改变了整个传统IT产业的基础架构,而大数据处理,尤其像Hadoop组件这样的技术出现,将是改变IT业务模式的一种技术。 另外,很多小伙伴可能还搞不明白云和Hadoop有什么关系,事实
阅读全文
posted @ 2018-05-16 23:37
尹正杰
阅读(1800)
推荐(1)
摘要:
Java基础-DBCP连接池(BasicDataSource类)详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 实际开发中“获得连接”或“释放资源”是非常消耗系统资源的两个过程,为了解决此类性能问题,通常情况我们采用连接池技术,来共享连接Connection。这样我们就不需要
阅读全文
posted @ 2018-05-16 00:08
尹正杰
阅读(18821)
推荐(1)
摘要:
nc命令的常用参数介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 想必做运维的应该在网络安全上都对一些开源软件都应该是相当的了解吧,比如tcpdump,namp等神奇,今天要给大家介绍的就是在netcat工具,简称nc。很多人都说它有着网络界的瑞士军刀美誉。因为它短小精悍、功
阅读全文
posted @ 2018-05-15 00:23
尹正杰
阅读(6845)
推荐(1)
摘要:
Java基础-DButils工具类(QueryRunner)详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 如果只使用JDBC进行开发,我们会发现冗余代码过多,为了简化JDBC开发,本案例我们讲采用apache commons组件一个成员:DBUtils。DBUtils就是J
阅读全文
posted @ 2018-05-13 22:26
尹正杰
阅读(14594)
推荐(0)
摘要:
MySQL数据库语法-多表查询练习一 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客主要介绍的多表查询的外键约束,以及如何使用外链接和内连接查询数据信息。 一.数据表和测试数据准备 二.内连接与外链接 1>.内连接与外链接的区别 2>.普通内链接(使用关键字) 3>.隐含
阅读全文
posted @ 2018-05-12 18:57
尹正杰
阅读(1685)
推荐(3)
摘要:
MySQL数据库语法-单表查询练习 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客主要是对聚合函数和分组的练习。 一.数据表和测试数据准备 二.小试牛刀 1>. 按照产品分组 2>.求每个商品的数量 3>.求某个商品的数量,最值 4>.求各种商品销售总价 5>.对分组后的
阅读全文
posted @ 2018-05-12 17:03
尹正杰
阅读(698)
推荐(0)