摘要:
Java基础-数据类型应用案例展示 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.把long数据转换成字节数组,把字节数组数据转换成long。 1 /* 2 @author :yinzhengjie 3 Blog:http://www.cnblogs.com/yinzheng
阅读全文
posted @ 2018-07-02 20:14
尹正杰
阅读(572)
推荐(0)
摘要:
Java基础-Java中23种设计模式之常用的设计模式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.设计模式分类 设计模式是针对特定场景给出的专家级的解决方案。总的来说设计模式分为以下三大类: 1>.创建型模式 答:共五种,即工厂方法模式、抽象工厂模式、单例模式、建造者模式
阅读全文
posted @ 2018-07-01 18:44
尹正杰
阅读(1728)
推荐(0)
摘要:
Hadoop基础-MapReduce的Join操作 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.连接操作Map端Join(适合处理小表+大表的情况) 1 no001 12.3 7 2 no002 18.8 4 3 no003 20.0 3 4 no004 50.0 7 5
阅读全文
posted @ 2018-06-30 11:40
尹正杰
阅读(384)
推荐(0)
摘要:
Java基础-时间复杂度计算方式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 时间复杂度通常是衡量算法的优劣的,衡量算法的时间严格来讲是很难衡量的,由于不同的机器性能不用环境都会造成不同的执行时间。 一.什么是时间复杂度 1>.什么是时间频度 算法的执行时间和语句的执行次数成正
阅读全文
posted @ 2018-06-29 19:59
尹正杰
阅读(2724)
推荐(0)
摘要:
Java基础-JAVA中常见的数据结构介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.什么是数据结构 答:数据结构是指数据存储的组织方式。大致上分为线性表、栈(Stack)、队列、树(tree)、图(Map)。 二.线性表 线性表又细分为两大类,即数组和链表。 1>.数组
阅读全文
posted @ 2018-06-29 19:04
尹正杰
阅读(1214)
推荐(0)
摘要:
Java基础-IO流对象之压缩流(ZipOutputStream)与解压缩流(ZipInputStream) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 之前我已经分享过很多的Java的IO流了,和其他的IO流用法类似,我们要介绍的是压缩流,使用方法很简单。话不多说,一切尽在注
阅读全文
posted @ 2018-06-28 18:12
尹正杰
阅读(2740)
推荐(0)
摘要:
Hadoop生态圈-Azkaban实现hive脚本执行 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客中在HDFS分布式系统取的数据,而这个数据的是有之前我通过MapReduce生产的数据,详情请参考:https://www.cnblogs.com/yinzhengjie
阅读全文
posted @ 2018-06-27 14:36
尹正杰
阅读(3615)
推荐(1)
摘要:
Hadoop生态圈-Azkaban实现文件上传到hdfs并执行MR数据清洗 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 如果你没有Hadoop集群的话也没有关系,我这里给出当时我部署Hadoop集群的笔记:https://www.cnblogs.com/yinzhengjie/
阅读全文
posted @ 2018-06-27 12:55
尹正杰
阅读(636)
推荐(0)
摘要:
Hadoop生态圈-Azkaban实战之Command类型执行指定脚本 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 1>.服务端测试代码(别忘记添加权限哟!) 2>.Windows端的job任务 3>.在azkaban的web界面创建项目 4>.将我们压缩好的zip文件上传上去
阅读全文
posted @ 2018-06-27 12:36
尹正杰
阅读(1788)
推荐(1)
摘要:
Hadoop基础-MapReduce的排序 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.MapReduce的排序分类 1>.部分排序 部分排序是对单个分区进行排序,举个简单的例子,第一个分区中的数据为1,3,5;而第二个分区为2,4,这两个分区的值看起来是没有连续性的,但是
阅读全文
posted @ 2018-06-25 20:48
尹正杰
阅读(1120)
推荐(0)
摘要:
Hadoop生态圈-Azkaban实战之Command类型多job工作流flow 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 Azkaban内置的任务类型支持command、java。 一.Command类型单一job示例 1>.创建job描述文件 2>.将job资源文件打包成
阅读全文
posted @ 2018-06-25 09:36
尹正杰
阅读(682)
推荐(0)
摘要:
Hadoop生态圈-Azkaban部署实战 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Azkaban部署流程 1>.上传azkaban程序并创建解压目录 2>.分别解压文件到/soft/azkaban中 3>.进入到mysql命令行并创建数据库 4>.创建SSL配置(完成
阅读全文
posted @ 2018-06-24 17:30
尹正杰
阅读(683)
推荐(1)
摘要:
SHELL脚本编程循环篇-until循环 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.until循环的语法格式 二.小试牛刀 1>.计算1-100之间的整数和 [root@node101.yinzhengjie.org.cn ~]# cat shell/sum.sh #!/
阅读全文
posted @ 2018-06-24 15:54
尹正杰
阅读(806)
推荐(0)
摘要:
Hadoop生态圈-Kafka配置文件详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.默认kafka配置文件内容([yinzhengjie@s101 ~]$ more /soft/kafka/config/server.properties ) 二.Kafka常用参数 1
阅读全文
posted @ 2018-06-23 13:06
尹正杰
阅读(396)
推荐(0)
摘要:
Hadoop生态圈-使用Kafka命令在Zookeeper中对应关系 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.zookeeper保存kafka的目录 二.使用Kafka命令在Zookeeper中对应关系 1>.创建主题在zookeeper中的对应关系 [yinzheng
阅读全文
posted @ 2018-06-22 12:01
尹正杰
阅读(398)
推荐(0)
摘要:
Hadoop生态圈-Kafka的旧API实现生产者-消费者 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.旧API实现生产者-消费者 1>.开启kafka集群 [yinzhengjie@s101 ~]$ more `which xkafka.sh` #!/bin/bash #
阅读全文
posted @ 2018-06-21 18:37
尹正杰
阅读(415)
推荐(0)
摘要:
Apache Kafka运维常用命令 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.管理Kafka服务的命令 1>.开启kafka服务 2>.停止kafka服务(刷新日志到本地且迁移当前broker的所有leader的parition) 3>.查看kafka进程ID 二.ka
阅读全文
posted @ 2018-06-21 17:12
尹正杰
阅读(970)
推荐(0)
摘要:
企业级Apache Kafka部署实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.安装zookeeper集群 1>.下载zookeeper [root@node106.yinzhengjie.org.cn ~]# yum -y install wget Loaded p
阅读全文
posted @ 2018-06-21 15:31
尹正杰
阅读(2571)
推荐(0)
摘要:
Hadoop生态圈-Kafka的本地模式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Kafka简介 1>.什么是JMS 答:在Java中有一个角消息系统的东西,我们叫他Java Message Service,简称JMS。比如各种MQ。 2>.JMS的两种工作模式 第
阅读全文
posted @ 2018-06-21 14:53
尹正杰
阅读(689)
推荐(0)
摘要:
Hadoop生态圈-Flume的组件之自定义拦截器(interceptor) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客只是举例了一个自定义拦截器的方法,测试字节传输速度。 1>.自定义interceptor方法 2>.打包并将其发送到 /soft/flume/lib
阅读全文
posted @ 2018-06-21 11:55
尹正杰
阅读(406)
推荐(0)
摘要:
Hadoop生态圈-Flume的组件之自定义Sink 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客主要介绍sink相关的API使用两个小案例,想要了解更多关于API的小技巧请参考官网:http://flume.apache.org/FlumeDeveloperGuide
阅读全文
posted @ 2018-06-21 09:00
尹正杰
阅读(627)
推荐(0)
摘要:
Hadoop生态圈-Flume的组件之拦截器与选择器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客只是配置的是Flume主流的Interceptors,想要了解更详细的配置信息请参考官网:http://flume.apache.org/FlumeUserGuide.ht
阅读全文
posted @ 2018-06-20 19:28
尹正杰
阅读(493)
推荐(0)
摘要:
Hadoop生态圈-Flume的主流Sinks源配置 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客只是配置的是Flume主流的Sinks,想要了解更详细的配置信息请参考官网:http://flume.apache.org/FlumeUserGuide.html#flum
阅读全文
posted @ 2018-06-19 16:18
尹正杰
阅读(831)
推荐(0)
摘要:
Hadoop生态圈-Flume的主流source源配置 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客只是配置的是Flume主流的Source,想要了解更详细的配置信息请参考官网:http://flume.apache.org/FlumeUserGuide.html#fl
阅读全文
posted @ 2018-06-19 15:19
尹正杰
阅读(1165)
推荐(0)
摘要:
Hadoop基础-MapReduce的数据倾斜解决方案 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据倾斜简介 1>.什么是数据倾斜 答:大量数据涌入到某一节点,导致此节点负载过重,此时就产生了数据倾斜。 2>.处理数据倾斜的两种方案 第一:重新设计key; 第二:设计随
阅读全文
posted @ 2018-06-18 10:04
尹正杰
阅读(2342)
推荐(1)
摘要:
Hadoop基础-MapReduce的Partitioner用法案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Partitioner关键代码剖析 1>.返回的分区号 2>.partitioner默认是通过hash方法实现的 返回的是一个int类型的数组: 3>.Hash
阅读全文
posted @ 2018-06-17 13:40
尹正杰
阅读(1061)
推荐(0)
摘要:
Hadoop基础-MapReduce的Combiner用法案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.编写年度最高气温统计 如上图说所示:有一个temp的文件,里面存放的是每年的数据,该数据全部是文本内容,大小2M左右,我已将他放在百度云(链接:https://pan
阅读全文
posted @ 2018-06-16 10:11
尹正杰
阅读(877)
推荐(0)
摘要:
Hadoop基础-MapReduce的工作原理第二弹 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Split(切片) 1>.MapReduce处理的单位(切片) 想必你在看MapReduce的源码的时候,是不是也在源码中看到了一行注释“//Create the splits
阅读全文
posted @ 2018-06-16 09:32
尹正杰
阅读(562)
推荐(0)
摘要:
Hadoop生态圈-flume日志收集工具完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 目前为止,Hadoop的一个主流应用就是对于大规模web日志的分析和处理,因此想要把web服务的日志导入到Hadoop来进行分析就得借助日志收集工具了。目前主流的Hadoop日
阅读全文
posted @ 2018-06-15 17:31
尹正杰
阅读(2261)
推荐(0)
摘要:
Hadoop生态圈-Ganglia监控部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 Ganglia是一个轻量级的应用,部署方式相比zabbix部署要简单的多,安装完毕后并启动服务,服务端就可以直接监控客户端。Ganglia不需要像Nagios,Cacti或是Zabbix那样
阅读全文
posted @ 2018-06-15 09:23
尹正杰
阅读(772)
推荐(0)
摘要:
Hadoop生态圈-Sqoop部署以及基本使用方法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如
阅读全文
posted @ 2018-06-14 15:07
尹正杰
阅读(3020)
推荐(0)
摘要:
Hadoop生态圈-phoenix(HBase)的索引配置 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 创建索引是为了优化查询,我们可以在phoenix上配置索引方式。 一.修改hbase配置文件,以便支持索引 1>.xrsync.sh 脚本内容 2>.修改hbase配置文件,
阅读全文
posted @ 2018-06-14 10:30
尹正杰
阅读(524)
推荐(0)
摘要:
Hadoop生态圈-phoenix完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 phoenix只是一个插件,我们可以用hive给hbase套上一个JDBC壳,但是你有没有体会到Hive执行SQL语句是很慢的,因此我们采用phoenix插件的方式给hbase套上JD
阅读全文
posted @ 2018-06-12 17:14
尹正杰
阅读(3640)
推荐(0)
摘要:
Hadoop生态圈-HBase的HFile创建方式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 废话不多说,直接上代码,想说的话都在代码的注释里面。 一.环境准备 二.编写HFile创建方式的代码 1>.编写Map端代码 2>.编写Reducer端代码 3>.编写主程序代码 4
阅读全文
posted @ 2018-06-12 11:48
尹正杰
阅读(484)
推荐(0)
摘要:
Hadoop生态圈-使用MapReduce处理HBase数据 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.对HBase表中数据进行单词统计(TableInputFormat) 1>.准备环境 2>.编写Map端代码 3>.编写Reducer端代码 4>.编写主程序代码 5>
阅读全文
posted @ 2018-06-12 09:13
尹正杰
阅读(395)
推荐(0)
摘要:
Hadoop生态圈-注册并加载协处理器(coprocessor)的三种方式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 到目前为止,大家已经掌握了如何使用过滤器来减少服务器端通过网络返回到客户端的数据量。HBase中还有一些特性让用户甚至可以把一部分计算也移动到数据的存放端,他
阅读全文
posted @ 2018-06-10 15:03
尹正杰
阅读(948)
推荐(0)
摘要:
SHELL脚本编程循环篇-while循环 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.while循环的语法格式 while CONDITION; do 循环体 done 以上参数关键点说明: CONDITION: 循环控制条件,进入循环之前,先做一次判断;每一次循环之后会再
阅读全文
posted @ 2018-06-09 01:54
尹正杰
阅读(4007)
推荐(0)
摘要:
Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最优的写性能(能使I/O利用率达到饱和)进而出色的读性能,它充分利用了磁盘空间,支持特定列族切换可选压
阅读全文
posted @ 2018-06-08 10:51
尹正杰
阅读(310)
推荐(0)
摘要:
Hadoop生态圈-Hive快速入门篇之HQL的基础语法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 本篇博客的重点是介绍Hive中常见的数据类型,DDL数据定义,DML数据操作以及常用的查询操作。如果你没有hive的安装环境的话,可以参考我之前分析搭建hive的笔记:http
阅读全文
posted @ 2018-06-08 10:34
尹正杰
阅读(1419)
推荐(0)
摘要:
Hadoop生态圈-Hive快速入门篇之Hive环境搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据仓库(理论性知识大多摘自百度百科) 1>.什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过
阅读全文
posted @ 2018-06-08 10:32
尹正杰
阅读(986)
推荐(1)