上一页 1 2 3 4 5 6 ··· 9 下一页
摘要: HDFS的数据保护篇-快照案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS保护数据的解决方案 HDFS提供了两个非常有用的功能,帮助防止用户删除文件和目录,即回收站和快照。 HDFS回收站功能: 将删除的文件和目录存储在特定回收站目录中一定的时间,然后再将其永久删 阅读全文
posted @ 2020-07-14 23:10 JasonYin2020 阅读(727) 评论(0) 推荐(0) 编辑
摘要: 使用"hdfs dfs"实用程序来管理HDFS 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.命令行是管理HDFS存储的最常用方法 使用HDFS是一项最常见的Hadoop管理工作。虽然可以通过很多方式访问HDFS,但命令行是管理HDFS存储的最常用方法。 可以通过以下几种方式 阅读全文
posted @ 2020-07-13 23:49 JasonYin2020 阅读(992) 评论(0) 推荐(0) 编辑
摘要: HDFS集中式高速缓存管理及短路读取案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS中集中式缓存概述 1>.Hadoop缓存概述 通常datanode从磁盘中读取数据块,但对于访问频繁的文件(例如小型Hive事实表),其对应的块可能被显式地缓存在datanode的 阅读全文
posted @ 2020-07-12 23:02 JasonYin2020 阅读(911) 评论(1) 推荐(1) 编辑
摘要: 机架感知实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.网络拓扑与机架感知概述 1>.网络拓扑概述 有可能你会问,在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间传输的传输速率,即带宽很稀缺。这里的想法是将两个节点间的带宽 阅读全文
posted @ 2020-07-10 23:52 JasonYin2020 阅读(884) 评论(0) 推荐(1) 编辑
摘要: 使用dfsadmin使用程序执行HDFS操作 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.hdfs dfsadmin概述 可以使用hdfs dfsadmin命令从明朗了和管理HDFS。虽然使用hdfs dfs命令也可以管理HDFS文件和目录,但dfsadmin命令空间以执行 阅读全文
posted @ 2020-07-09 22:01 JasonYin2020 阅读(1438) 评论(0) 推荐(0) 编辑
摘要: 通过文件系统检查(fsck)确保数据完整性 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS文件系统检查概述 Linux系统管理员运行fsck命令以修复ext3或者ext4文件系统上的损坏文件。fsck命令检查磁盘结构,如果它们已损坏,可以修复它们。HDFS提供了类似的 阅读全文
posted @ 2020-07-05 22:29 JasonYin2020 阅读(651) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming-DStream实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.DStream创建 1>.文件数据源采集 文件数据流: 能够读取所有HDFS API兼容的文件系统文件,通过fileStream方法进行读取,Spark Streaming 阅读全文
posted @ 2020-07-03 23:22 JasonYin2020 阅读(461) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark Streaming概览 1>.什么是Spark Streaming Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。 如 阅读全文
posted @ 2020-07-01 23:59 JasonYin2020 阅读(601) 评论(0) 推荐(0) 编辑
摘要: SparkSQL数据源-Hive数据库 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Hive应用 1>.内嵌Hive应用 Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以 阅读全文
posted @ 2020-06-30 22:36 JasonYin2020 阅读(791) 评论(0) 推荐(0) 编辑
摘要: SparkSQL数据源实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.通用加载/保存方法 1>.spark官方默认提供的测试数据 [root@hadoop101.yinzhengjie.org.cn ~]# ll /yinzhengjie/softwares/spark 阅读全文
posted @ 2020-06-29 23:13 JasonYin2020 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 用户自定义函数 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.用户自定义UDF函数 [root@hadoop101.yinzhengjie.org.cn ~]# spark-shell #在"spark-shell"窗口中可以通过spark.udf功能用户可以自定义函数。 2 阅读全文
posted @ 2020-06-28 22:27 JasonYin2020 阅读(455) 评论(0) 推荐(0) 编辑
摘要: IDEA创建SparkSQL程序 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.创建DataFrame <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactI 阅读全文
posted @ 2020-06-27 22:36 JasonYin2020 阅读(706) 评论(0) 推荐(0) 编辑
摘要: Spark SQL编程之DataSet篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.创建DataSet 温馨提示: Dataset是具有强类型的数据集合,需要提供对应的类型信息。下面是具体案例。 scala> case class Person(name: String, 阅读全文
posted @ 2020-06-27 01:42 JasonYin2020 阅读(497) 评论(0) 推荐(0) 编辑
摘要: Spark SQL编程之DataFrame篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.DataFrame的创建 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式: (1)通过Spark的数据源进行 阅读全文
posted @ 2020-06-25 22:50 JasonYin2020 阅读(485) 评论(0) 推荐(0) 编辑
摘要: Spark SQL编程实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark SQL编程之DataFrame篇 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13193293.html 二.Spark SQL编 阅读全文
posted @ 2020-06-23 23:00 JasonYin2020 阅读(660) 评论(0) 推荐(0) 编辑
摘要: Spark SQL概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 Hive是将Hive S 阅读全文
posted @ 2020-06-22 22:25 JasonYin2020 阅读(280) 评论(0) 推荐(0) 编辑
摘要: Spark编程进阶篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.spark三大数据结构 Spark有三大数据结构,分别为RDD,广播变量和累加器。 RDD: RDD全称为"Resilient Distributed Dataset",叫做弹性分布式数据集,是Spark中最 阅读全文
posted @ 2020-06-21 21:38 JasonYin2020 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 数据的读取与保存 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据读取与保存概述 Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。 文件格式分为: Text文件 Json文件 Csv文件 Sequence文件 Object文件 ... 文件系统分 阅读全文
posted @ 2020-06-20 22:14 JasonYin2020 阅读(524) 评论(0) 推荐(0) 编辑
摘要: 键值对RDD数据分区器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.键值对RDD数据分区器概述 Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuff 阅读全文
posted @ 2020-06-19 23:25 JasonYin2020 阅读(169) 评论(0) 推荐(0) 编辑
摘要: Spark master的HA实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署zookeeper集群 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/12501023.html 二.配置spark的ha模式 1> 阅读全文
posted @ 2020-06-18 23:51 JasonYin2020 阅读(223) 评论(0) 推荐(0) 编辑
摘要: Spark的RDD编程实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 RDD体现了装饰者设计模式,将数据处理的逻辑进行封装,接下来让我们一起来体验一下吧。 一.RDD概述 1>.什么是RDD RDD全称为"Resilient Distributed Dataset",叫做 阅读全文
posted @ 2020-06-17 23:41 JasonYin2020 阅读(1232) 评论(0) 推荐(0) 编辑
摘要: 独立部署spark历史服务 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark的Standalone运行模式部署实战案例 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13122259.html 二.JobHisto 阅读全文
posted @ 2020-06-16 23:24 JasonYin2020 阅读(1253) 评论(0) 推荐(0) 编辑
摘要: 将开发的程序打包到正式环境中运行实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.编写spark的wordcount案例 1>.创建一个maven项目并导入依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=" 阅读全文
posted @ 2020-06-15 23:12 JasonYin2020 阅读(596) 评论(0) 推荐(0) 编辑
摘要: Spark的Yarn运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.启动Hadoop集群 1>.修改yarn的配置文件 [root@hadoop101.yinzhengjie.org.cn ~]# vim /yinzhengjie/softwares/ha 阅读全文
posted @ 2020-06-14 23:40 JasonYin2020 阅读(332) 评论(0) 推荐(0) 编辑
摘要: Spark的Standalone运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.准备工作 1>.角色分配 hadoop101.yinzhengjie.org.cn: worker节点,ansible节点 hadoop102.yinzhengjie.org. 阅读全文
posted @ 2020-06-13 23:20 JasonYin2020 阅读(384) 评论(0) 推荐(0) 编辑
摘要: Spark的Local运行模式部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署spark 1>.下载spark二进制安装包 下载Spark地址: http://spark.apache.org/downloads.html 2>.解压spark到指定路径 [r 阅读全文
posted @ 2020-06-12 23:32 JasonYin2020 阅读(637) 评论(0) 推荐(0) 编辑
摘要: Spark概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 Spark基于Hadoop1.x架构思想,采用自己的方式改善Hadoop1.x中的问题,接下来我们就一起来学习一下spark技术栈吧。 一.什么是spark 1>.什么是spark Spark是一种基于内存的快速,通用 阅读全文
posted @ 2020-06-11 23:22 JasonYin2020 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 使用kibana统计Nginx访问IP的Top N实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.数据采集 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13081776.html 二.配置视图案例 1>.新建可视 阅读全文
posted @ 2020-06-10 23:28 JasonYin2020 阅读(2124) 评论(0) 推荐(0) 编辑
摘要: 基于MaxMind的GeoIP数据库统计Nginx客户端IP所在城市 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 MaxMind是IP智能和在线欺诈预防工具的领先提供商。我们可以通过该公司的GeoIP数据库来统计Nginx访问日志中记录的客户端IP来自哪个国家及城市。 一.安装 阅读全文
posted @ 2020-06-09 23:20 JasonYin2020 阅读(947) 评论(0) 推荐(0) 编辑
摘要: 日志写入数据库实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 写入数据库的目的是用于持久化保存重要数据,比如状态码,客户端IP,客户端浏览器版本等等,用于后期按月做数据统计等。 一.安装MySQL数据库 1>.查看Ubuntu默认支持安装MySQL的版本 [root@es 阅读全文
posted @ 2020-06-08 23:26 JasonYin2020 阅读(911) 评论(0) 推荐(0) 编辑
摘要: Filebeat使用快速入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署filebeat 博主推荐阅读: https://www.elastic.co/guide/en/beats/filebeat/6.8/filebeat-installation.html [r 阅读全文
posted @ 2020-06-07 22:06 JasonYin2020 阅读(1831) 评论(0) 推荐(0) 编辑
摘要: Kafka的API实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Producer API 1>.消息发送流程 Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程,以及一个线程共享变量—— 阅读全文
posted @ 2020-06-06 23:15 JasonYin2020 阅读(442) 评论(0) 推荐(0) 编辑
摘要: Kafka命令行操作案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.管理topic脚本(kafka-topics.sh) 1>.查看脚本的帮助信息 [root@kafka201.yinzhengjie.com ~]# kafka-topics.sh --help This 阅读全文
posted @ 2020-06-05 23:21 JasonYin2020 阅读(340) 评论(0) 推荐(0) 编辑
摘要: Kafka部署实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.搭建zookeeper集群 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/12501023.html 二.下载kafka软件包 1>.打开kafka官网 阅读全文
posted @ 2020-06-04 22:24 JasonYin2020 阅读(498) 评论(0) 推荐(0) 编辑
摘要: Kafka架构概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 kafka是一款基于发布与订阅的消息系统。它一般被称为"分布式提交日志"或者"分布式流平台"。 一.消息队列(Message Queue)概述 在正式讨论Apache kafka之前,先来了解消息队列的概念,并认识 阅读全文
posted @ 2020-06-03 22:30 JasonYin2020 阅读(524) 评论(0) 推荐(0) 编辑
摘要: Logstash使用进阶篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.通过rsyslog收集haproxy日志到Elaticsearch集群 在CentOS 6.x及之前的版本称为”syslog”,CentOS 7.x之后更名为”rsyslog”,根据官方的介绍,rsys 阅读全文
posted @ 2020-06-02 22:09 JasonYin2020 阅读(943) 评论(0) 推荐(0) 编辑
摘要: Logstash使用快速入门 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署Logstash 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/13022403.html [root@es103.yinzhengjie.c 阅读全文
posted @ 2020-06-01 22:43 JasonYin2020 阅读(1133) 评论(1) 推荐(2) 编辑
摘要: Ubuntu环境部署Logstash实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.准备环境 1>.部署环境说明 Logstash可以单独找一台机器部署,它需要安装JDK环境,我这里为了省事,就直接和一台Elasticsearch节点复用同一个节点(es103.yin 阅读全文
posted @ 2020-05-31 23:28 JasonYin2020 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: Nginx代理Kibana并实现登录认证实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 运维工作中,害人之心不可有,防人之心不可无呀,我们知道Kibana的WebUI默认没有认证功能,因此我们借助nginx来实现认证功能,此时我们需要将Kibanla服务监听到本地回环接口 阅读全文
posted @ 2020-05-30 23:05 JasonYin2020 阅读(816) 评论(0) 推荐(0) 编辑
摘要: Ubuntu环境部署Kibana实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.准备环境 1>.部署Elasticsearch集群 Kibana可以单独找一台机器部署,但生产环境中我们一般会和Elasticsearch集群任意一个节点部署在一起,因此我这里基于之前搭建 阅读全文
posted @ 2020-05-29 23:27 JasonYin2020 阅读(782) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 9 下一页