摘要:
HDFS的数据保护篇-快照案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS保护数据的解决方案 HDFS提供了两个非常有用的功能,帮助防止用户删除文件和目录,即回收站和快照。 HDFS回收站功能: 将删除的文件和目录存储在特定回收站目录中一定的时间,然后再将其永久删
阅读全文
posted @ 2020-07-14 23:10
JasonYin2020
阅读(845)
推荐(0)
摘要:
使用"hdfs dfs"实用程序来管理HDFS 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.命令行是管理HDFS存储的最常用方法 使用HDFS是一项最常见的Hadoop管理工作。虽然可以通过很多方式访问HDFS,但命令行是管理HDFS存储的最常用方法。 可以通过以下几种方式
阅读全文
posted @ 2020-07-13 23:49
JasonYin2020
阅读(1093)
推荐(0)
摘要:
HDFS集中式高速缓存管理及短路读取案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS中集中式缓存概述 1>.Hadoop缓存概述 通常datanode从磁盘中读取数据块,但对于访问频繁的文件(例如小型Hive事实表),其对应的块可能被显式地缓存在datanode的
阅读全文
posted @ 2020-07-12 23:02
JasonYin2020
阅读(1159)
推荐(1)
摘要:
机架感知实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.网络拓扑与机架感知概述 1>.网络拓扑概述 有可能你会问,在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间传输的传输速率,即带宽很稀缺。这里的想法是将两个节点间的带宽
阅读全文
posted @ 2020-07-10 23:52
JasonYin2020
阅读(989)
推荐(1)
摘要:
使用dfsadmin使用程序执行HDFS操作 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.hdfs dfsadmin概述 可以使用hdfs dfsadmin命令从明朗了和管理HDFS。虽然使用hdfs dfs命令也可以管理HDFS文件和目录,但dfsadmin命令空间以执行
阅读全文
posted @ 2020-07-09 22:01
JasonYin2020
阅读(1930)
推荐(0)
摘要:
通过文件系统检查(fsck)确保数据完整性 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS文件系统检查概述 Linux系统管理员运行fsck命令以修复ext3或者ext4文件系统上的损坏文件。fsck命令检查磁盘结构,如果它们已损坏,可以修复它们。HDFS提供了类似的
阅读全文
posted @ 2020-07-05 22:29
JasonYin2020
阅读(834)
推荐(0)
摘要:
Spark Streaming-DStream实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.DStream创建 1>.文件数据源采集 文件数据流: 能够读取所有HDFS API兼容的文件系统文件,通过fileStream方法进行读取,Spark Streaming
阅读全文
posted @ 2020-07-03 23:22
JasonYin2020
阅读(626)
推荐(0)
摘要:
Spark Streaming概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark Streaming概览 1>.什么是Spark Streaming Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。 如
阅读全文
posted @ 2020-07-01 23:59
JasonYin2020
阅读(709)
推荐(0)
摘要:
SparkSQL数据源-Hive数据库 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Hive应用 1>.内嵌Hive应用 Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以
阅读全文
posted @ 2020-06-30 22:36
JasonYin2020
阅读(867)
推荐(0)
摘要:
SparkSQL数据源实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.通用加载/保存方法 1>.spark官方默认提供的测试数据 [root@hadoop101.yinzhengjie.org.cn ~]# ll /yinzhengjie/softwares/spark
阅读全文
posted @ 2020-06-29 23:13
JasonYin2020
阅读(506)
推荐(0)
摘要:
用户自定义函数 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.用户自定义UDF函数 [root@hadoop101.yinzhengjie.org.cn ~]# spark-shell #在"spark-shell"窗口中可以通过spark.udf功能用户可以自定义函数。 2
阅读全文
posted @ 2020-06-28 22:27
JasonYin2020
阅读(468)
推荐(0)
摘要:
IDEA创建SparkSQL程序 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.创建DataFrame <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactI
阅读全文
posted @ 2020-06-27 22:36
JasonYin2020
阅读(749)
推荐(0)
摘要:
Spark SQL编程之DataSet篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.创建DataSet 温馨提示: Dataset是具有强类型的数据集合,需要提供对应的类型信息。下面是具体案例。 scala> case class Person(name: String,
阅读全文
posted @ 2020-06-27 01:42
JasonYin2020
阅读(529)
推荐(0)
摘要:
Spark SQL编程之DataFrame篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.DataFrame的创建 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式: (1)通过Spark的数据源进行
阅读全文
posted @ 2020-06-25 22:50
JasonYin2020
阅读(546)
推荐(0)
摘要:
Spark SQL编程实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark SQL编程之DataFrame篇 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13193293.html 二.Spark SQL编
阅读全文
posted @ 2020-06-23 23:00
JasonYin2020
阅读(719)
推荐(0)
摘要:
Spark SQL概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 Hive是将Hive S
阅读全文
posted @ 2020-06-22 22:25
JasonYin2020
阅读(304)
推荐(0)
摘要:
Spark编程进阶篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.spark三大数据结构 Spark有三大数据结构,分别为RDD,广播变量和累加器。 RDD: RDD全称为"Resilient Distributed Dataset",叫做弹性分布式数据集,是Spark中最
阅读全文
posted @ 2020-06-21 21:38
JasonYin2020
阅读(259)
推荐(0)
摘要:
数据的读取与保存 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据读取与保存概述 Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。 文件格式分为: Text文件 Json文件 Csv文件 Sequence文件 Object文件 ... 文件系统分
阅读全文
posted @ 2020-06-20 22:14
JasonYin2020
阅读(552)
推荐(0)
摘要:
键值对RDD数据分区器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.键值对RDD数据分区器概述 Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuff
阅读全文
posted @ 2020-06-19 23:25
JasonYin2020
阅读(190)
推荐(0)
摘要:
Spark master的HA实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署zookeeper集群 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/12501023.html 二.配置spark的ha模式 1>
阅读全文
posted @ 2020-06-18 23:51
JasonYin2020
阅读(235)
推荐(0)
摘要:
Spark的RDD编程实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 RDD体现了装饰者设计模式,将数据处理的逻辑进行封装,接下来让我们一起来体验一下吧。 一.RDD概述 1>.什么是RDD RDD全称为"Resilient Distributed Dataset",叫做
阅读全文
posted @ 2020-06-17 23:41
JasonYin2020
阅读(1530)
推荐(0)
摘要:
独立部署spark历史服务 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark的Standalone运行模式部署实战案例 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13122259.html 二.JobHisto
阅读全文
posted @ 2020-06-16 23:24
JasonYin2020
阅读(1393)
推荐(0)
摘要:
将开发的程序打包到正式环境中运行实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.编写spark的wordcount案例 1>.创建一个maven项目并导入依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="
阅读全文
posted @ 2020-06-15 23:12
JasonYin2020
阅读(611)
推荐(0)
摘要:
Spark的Yarn运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.启动Hadoop集群 1>.修改yarn的配置文件 [root@hadoop101.yinzhengjie.org.cn ~]# vim /yinzhengjie/softwares/ha
阅读全文
posted @ 2020-06-14 23:40
JasonYin2020
阅读(392)
推荐(0)
摘要:
Spark的Standalone运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.准备工作 1>.角色分配 hadoop101.yinzhengjie.org.cn: worker节点,ansible节点 hadoop102.yinzhengjie.org.
阅读全文
posted @ 2020-06-13 23:20
JasonYin2020
阅读(416)
推荐(0)
摘要:
Spark的Local运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署spark 1>.下载spark二进制安装包 下载Spark地址: http://spark.apache.org/downloads.html 2>.解压spark到指定路径 [r
阅读全文
posted @ 2020-06-12 23:32
JasonYin2020
阅读(745)
推荐(0)
摘要:
Spark概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 Spark基于Hadoop1.x架构思想,采用自己的方式改善Hadoop1.x中的问题,接下来我们就一起来学习一下spark技术栈吧。 一.什么是spark 1>.什么是spark Spark是一种基于内存的快速,通用
阅读全文
posted @ 2020-06-11 23:22
JasonYin2020
阅读(388)
推荐(0)
摘要:
使用kibana统计Nginx访问IP的Top N实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据采集 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13081776.html 二.配置视图案例 1>.新建可视
阅读全文
posted @ 2020-06-10 23:28
JasonYin2020
阅读(2394)
推荐(0)
摘要:
基于MaxMind的GeoIP数据库统计Nginx客户端IP所在城市 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 MaxMind是IP智能和在线欺诈预防工具的领先提供商。我们可以通过该公司的GeoIP数据库来统计Nginx访问日志中记录的客户端IP来自哪个国家及城市。 一.安装
阅读全文
posted @ 2020-06-09 23:20
JasonYin2020
阅读(1443)
推荐(0)
摘要:
日志写入数据库实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 写入数据库的目的是用于持久化保存重要数据,比如状态码,客户端IP,客户端浏览器版本等等,用于后期按月做数据统计等。 一.安装MySQL数据库 1>.查看Ubuntu默认支持安装MySQL的版本 [root@es
阅读全文
posted @ 2020-06-08 23:26
JasonYin2020
阅读(973)
推荐(0)
摘要:
Filebeat使用快速入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署filebeat 博主推荐阅读: https://www.elastic.co/guide/en/beats/filebeat/6.8/filebeat-installation.html [r
阅读全文
posted @ 2020-06-07 22:06
JasonYin2020
阅读(1934)
推荐(0)
摘要:
Kafka的API实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Producer API 1>.消息发送流程 Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程,以及一个线程共享变量——
阅读全文
posted @ 2020-06-06 23:15
JasonYin2020
阅读(484)
推荐(0)
摘要:
Kafka命令行操作案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.管理topic脚本(kafka-topics.sh) 1>.查看脚本的帮助信息 [root@kafka201.yinzhengjie.com ~]# kafka-topics.sh --help This
阅读全文
posted @ 2020-06-05 23:21
JasonYin2020
阅读(377)
推荐(0)
摘要:
Kafka部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.搭建zookeeper集群 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/12501023.html 二.下载kafka软件包 1>.打开kafka官网
阅读全文
posted @ 2020-06-04 22:24
JasonYin2020
阅读(535)
推荐(0)
摘要:
Kafka架构概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 kafka是一款基于发布与订阅的消息系统。它一般被称为"分布式提交日志"或者"分布式流平台"。 一.消息队列(Message Queue)概述 在正式讨论Apache kafka之前,先来了解消息队列的概念,并认识
阅读全文
posted @ 2020-06-03 22:30
JasonYin2020
阅读(560)
推荐(0)
摘要:
Logstash使用进阶篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.通过rsyslog收集haproxy日志到Elaticsearch集群 在CentOS 6.x及之前的版本称为”syslog”,CentOS 7.x之后更名为”rsyslog”,根据官方的介绍,rsys
阅读全文
posted @ 2020-06-02 22:09
JasonYin2020
阅读(1053)
推荐(0)
摘要:
Logstash使用快速入门 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署Logstash 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13022403.html [root@es103.yinzhengjie.c
阅读全文
posted @ 2020-06-01 22:43
JasonYin2020
阅读(1336)
推荐(2)
摘要:
Ubuntu环境部署Logstash实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.准备环境 1>.部署环境说明 Logstash可以单独找一台机器部署,它需要安装JDK环境,我这里为了省事,就直接和一台Elasticsearch节点复用同一个节点(es103.yin
阅读全文
posted @ 2020-05-31 23:28
JasonYin2020
阅读(1153)
推荐(0)
摘要:
Nginx代理Kibana并实现登录认证实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 运维工作中,害人之心不可有,防人之心不可无呀,我们知道Kibana的WebUI默认没有认证功能,因此我们借助nginx来实现认证功能,此时我们需要将Kibanla服务监听到本地回环接口
阅读全文
posted @ 2020-05-30 23:05
JasonYin2020
阅读(940)
推荐(0)
摘要:
Ubuntu环境部署Kibana实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.准备环境 1>.部署Elasticsearch集群 Kibana可以单独找一台机器部署,但生产环境中我们一般会和Elasticsearch集群任意一个节点部署在一起,因此我这里基于之前搭建
阅读全文
posted @ 2020-05-29 23:27
JasonYin2020
阅读(1054)
推荐(0)