随笔分类 -  日常笔记

摘要:之前记录Yarn:Hadoop2.0之YARN组件,这次使用Docker搭建Spark On Yarn 一、各运行模式 1、单机模式 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上没有问题。其中N代表可以使用N个线程,每个线程拥有 阅读全文
posted @ 2020-02-07 16:05 coder、 阅读(2548) 评论(1) 推荐(0)
摘要:官方文档:https://hadoop.apache.org/docs/stable/,目前官方已经是3.x,但yarn机制没有太大变化 一、简介 在Hadoop1.0中,没有yarn,所有的任务调度和资源管理都是MapReduce自己来做,所以在Hadoop1.0中,最核心的节点是JobTrack 阅读全文
posted @ 2020-02-07 15:38 coder、 阅读(812) 评论(0) 推荐(0)
摘要:本次记录是用于:SparkStreaming对接Kafka、HBase记录 一、基本概念 1、HBase以表的形式存储数据。表有行和列族组成。列族划分为若干个列。其结构如下 2、Row Key:行键 ①hbase本质上也是一种Key-Value存储系统。Key相当于RowKey,Value相当于列族 阅读全文
posted @ 2020-02-06 15:52 coder、 阅读(538) 评论(0) 推荐(0)
摘要:一、SparkStreaming概述 SparkStreaming是一种构建在Spark基础上的实时计算框架,它扩展了Spark处理大规模流式数据的能力,以吞吐量高和容错能力强著称。 SparkStreaming会将源数据以batch为单位来进行处理,每一批数据封装为一个DStream。即Spark 阅读全文
posted @ 2020-01-30 22:40 coder、 阅读(261) 评论(0) 推荐(0)
摘要:SparkSQL将RDD封装成一个DataFrame对象,这个对象类似于关系型数据库中的表。 一、SparkSQL入门 1、创建DataFrame 相当于数据库中的一张表,它是一个只读的表,不能在运算过程中再往里加元素。RDD.toDF("列名") 2、创建多列DataFrame对象 1)2列Dat 阅读全文
posted @ 2020-01-30 22:20 coder、 阅读(324) 评论(0) 推荐(0)
摘要:本次学习还是为了实现之前搁置了很久的项目:网站日志流量分析系统,之前使用Docker搭建了基础环境:使用Docker搭建Spark集群(用于实现网站流量实时分析模块),这次再补补Spark的理论基础,再编写Scala代码实现网站流量实时分析 1、Spark架构 ①Driver Program:用户编 阅读全文
posted @ 2020-01-14 22:54 coder、 阅读(339) 评论(0) 推荐(0)
摘要:目前参与的项目也已经上线了,业务性比较复杂并且涉及的系统比较多,但是单说技术,没什么亮点,SpringBoot、Elastic-Job(还是未分布式部署)、Shiro等,但是在开发期间还遇到了很多问题,比如:报文如何实现统一加解密并且验签?还有一个让我头疼很久的问题:Transactional注解失 阅读全文
posted @ 2020-01-13 11:27 coder、 阅读(269) 评论(0) 推荐(0)
摘要:趁着工作业余时间,趁着内心对技术追求的热情,还是对Spark这个大数据内存计算框架动手了,毕竟人与人之间的差距都是在工作业余时间拉开的…… Spark官网:http://spark.apache.org/ 一、Spark概述 官网已经说的很明白了,我这里记录一些重点。Spark是一种分布式计算框架, 阅读全文
posted @ 2020-01-07 23:10 coder、 阅读(299) 评论(0) 推荐(0)
摘要:记录本次学习是用于:Scala实现网站流量实时分析 Scala官网:https://www.scala-lang.org/,创始人:马丁·奥德斯基(编写了javac和scalac,没错就是我们初学java时所用命令行窗口中的javac),Scala不把程序员当傻子,马丁·奥德斯基对于Scala的定位 阅读全文
posted @ 2020-01-02 15:01 coder、 阅读(385) 评论(0) 推荐(0)
摘要:本次安装主要是为了离线分析数据清洗完成后的操作:网站日志流量分析系统之数据清洗处理(离线分析) 一、概述 1. sqoop是Apache 提供的工具,用于hdfs和关系型数据库之间数据的导入和导入 2.可以从hdfs导出数据到关系型数据库,也可以从关系型数据库导入数据到hdfs 二、实现步骤 1. 阅读全文
posted @ 2019-10-09 18:31 coder、 阅读(546) 评论(0) 推荐(0)
摘要:一、常用命令 二、其他命令 阅读全文
posted @ 2019-10-09 15:58 coder、 阅读(218) 评论(5) 推荐(0)
摘要:一、概述 ①Flume最早是由Cloudera提供的日志收集系统,后贡献给apache。 ②Flume是一个高可用、高可靠、健壮性,分布式的海量日志采集、聚合和传输的系统。 ③Flume支持在日志系统中定制各类数据发送方,用于收集数据(source)。 ④Flume提供对数据进行简单处理,并写到各种 阅读全文
posted @ 2019-08-23 14:09 coder、 阅读(533) 评论(0) 推荐(0)
摘要:一、Hive介绍 Apache官网给出的logo,一半是Hadoop大象的头,一半是蜜蜂的身体,也是寓意着它是基于Hadoop,哈哈,纯属个人理解,进入正题。 Hive是基于Hadoop的一个数据仓库工具,可以将sql语句转换成MapReduce任务来运行。可以用来数据提取、转化、加载(ETL),这 阅读全文
posted @ 2019-08-07 21:51 coder、 阅读(1125) 评论(1) 推荐(1)
摘要:阅读声明:以下内容是结合网上材料及工作内容所写的个人理解,如有不当,欢迎大家指正~~~谢谢啦 一、ZooKeeper的选举机制、FailOver机制 我们知道ZooKeeper在分布式环境中协调服务,如果宕机,那么整体的协调服务失效,所以单台ZooKeeper存在单点故障问题,由此我们引入ZooKe 阅读全文
posted @ 2019-08-03 13:46 coder、 阅读(209) 评论(0) 推荐(0)
摘要:阅读声明:以下内容是结合网上材料所写个人理解,如有不当,欢迎大家指正~~~谢谢 一、Zookeeper介绍 zookeeper,见名知意嘛,zoo动物园,keeper保持者、管理员,结合起来就是动物管理员,为什么这么说呢?不放大家可以看一看目前大数据技术:比如Hadoop的logo是一个黄色的大象、 阅读全文
posted @ 2019-08-03 13:14 coder、 阅读(397) 评论(0) 推荐(0)