日常笔记 - 随笔分类 - coder、

Spark On Yarn搭建及各运行模式说明

摘要：之前记录Yarn：Hadoop2.0之YARN组件，这次使用Docker搭建Spark On Yarn 一、各运行模式 1、单机模式该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算，通常用来验证开发出来的应用程序逻辑上没有问题。其中N代表可以使用N个线程，每个线程拥有阅读全文

posted @ 2020-02-07 16:05 coder、阅读(2548) 评论(1) 推荐(0)

Hadoop2.0之YARN组件

摘要：官方文档：https://hadoop.apache.org/docs/stable/，目前官方已经是3.x，但yarn机制没有太大变化一、简介在Hadoop1.0中，没有yarn，所有的任务调度和资源管理都是MapReduce自己来做，所以在Hadoop1.0中，最核心的节点是JobTrack 阅读全文

posted @ 2020-02-07 15:38 coder、阅读(812) 评论(0) 推荐(0)

HBase记录

摘要：本次记录是用于：SparkStreaming对接Kafka、HBase记录一、基本概念 1、HBase以表的形式存储数据。表有行和列族组成。列族划分为若干个列。其结构如下 2、Row Key：行键 ①hbase本质上也是一种Key-Value存储系统。Key相当于RowKey，Value相当于列族阅读全文

posted @ 2020-02-06 15:52 coder、阅读(538) 评论(0) 推荐(0)

SparkStreaming个人记录

摘要：一、SparkStreaming概述 SparkStreaming是一种构建在Spark基础上的实时计算框架，它扩展了Spark处理大规模流式数据的能力，以吞吐量高和容错能力强著称。 SparkStreaming会将源数据以batch为单位来进行处理，每一批数据封装为一个DStream。即Spark 阅读全文

posted @ 2020-01-30 22:40 coder、阅读(261) 评论(0) 推荐(0)

SparkSQL个人记录

摘要：SparkSQL将RDD封装成一个DataFrame对象，这个对象类似于关系型数据库中的表。一、SparkSQL入门 1、创建DataFrame 相当于数据库中的一张表，它是一个只读的表，不能在运算过程中再往里加元素。RDD.toDF("列名") 2、创建多列DataFrame对象 1）2列Dat 阅读全文

posted @ 2020-01-30 22:20 coder、阅读(324) 评论(0) 推荐(0)

Spark学习笔记2

摘要：本次学习还是为了实现之前搁置了很久的项目：网站日志流量分析系统，之前使用Docker搭建了基础环境：使用Docker搭建Spark集群（用于实现网站流量实时分析模块），这次再补补Spark的理论基础，再编写Scala代码实现网站流量实时分析 1、Spark架构 ①Driver Program：用户编阅读全文

posted @ 2020-01-14 22:54 coder、阅读(339) 评论(0) 推荐(0)

个人工作项目总结记录2

摘要：目前参与的项目也已经上线了，业务性比较复杂并且涉及的系统比较多，但是单说技术，没什么亮点，SpringBoot、Elastic-Job（还是未分布式部署）、Shiro等，但是在开发期间还遇到了很多问题，比如：报文如何实现统一加解密并且验签？还有一个让我头疼很久的问题：Transactional注解失阅读全文

posted @ 2020-01-13 11:27 coder、阅读(269) 评论(0) 推荐(0)

Spark学习笔记1

摘要：趁着工作业余时间，趁着内心对技术追求的热情，还是对Spark这个大数据内存计算框架动手了，毕竟人与人之间的差距都是在工作业余时间拉开的…… Spark官网：http://spark.apache.org/ 一、Spark概述官网已经说的很明白了，我这里记录一些重点。Spark是一种分布式计算框架，阅读全文

posted @ 2020-01-07 23:10 coder、阅读(299) 评论(0) 推荐(0)

Scala学习笔记

摘要：记录本次学习是用于：Scala实现网站流量实时分析 Scala官网：https://www.scala-lang.org/，创始人：马丁·奥德斯基（编写了javac和scalac，没错就是我们初学java时所用命令行窗口中的javac），Scala不把程序员当傻子，马丁·奥德斯基对于Scala的定位阅读全文

posted @ 2020-01-02 15:01 coder、阅读(385) 评论(0) 推荐(0)

Sqoop的安装及常用命令

摘要：本次安装主要是为了离线分析数据清洗完成后的操作：网站日志流量分析系统之数据清洗处理（离线分析）一、概述 1. sqoop是Apache 提供的工具，用于hdfs和关系型数据库之间数据的导入和导入 2.可以从hdfs导出数据到关系型数据库，也可以从关系型数据库导入数据到hdfs 二、实现步骤 1. 阅读全文

posted @ 2019-10-09 18:31 coder、阅读(546) 评论(0) 推荐(0)

HDFS的常用命令

摘要：一、常用命令二、其他命令阅读全文

posted @ 2019-10-09 15:58 coder、阅读(218) 评论(5) 推荐(0)

Flume学习笔记

摘要：一、概述 ①Flume最早是由Cloudera提供的日志收集系统，后贡献给apache。 ②Flume是一个高可用、高可靠、健壮性，分布式的海量日志采集、聚合和传输的系统。 ③Flume支持在日志系统中定制各类数据发送方，用于收集数据（source）。 ④Flume提供对数据进行简单处理，并写到各种阅读全文

posted @ 2019-08-23 14:09 coder、阅读(533) 评论(0) 推荐(0)

Hive的学习之路（理论篇）

摘要：一、Hive介绍 Apache官网给出的logo，一半是Hadoop大象的头，一半是蜜蜂的身体，也是寓意着它是基于Hadoop，哈哈，纯属个人理解，进入正题。 Hive是基于Hadoop的一个数据仓库工具，可以将sql语句转换成MapReduce任务来运行。可以用来数据提取、转化、加载（ETL），这阅读全文

posted @ 2019-08-07 21:51 coder、阅读(1125) 评论(1) 推荐(1)

研究Zookeeper的原理（二）

摘要：阅读声明：以下内容是结合网上材料及工作内容所写的个人理解，如有不当，欢迎大家指正~~~谢谢啦一、ZooKeeper的选举机制、FailOver机制我们知道ZooKeeper在分布式环境中协调服务，如果宕机，那么整体的协调服务失效，所以单台ZooKeeper存在单点故障问题，由此我们引入ZooKe 阅读全文

posted @ 2019-08-03 13:46 coder、阅读(209) 评论(0) 推荐(0)

研究Zookeeper的原理（一）

摘要：阅读声明：以下内容是结合网上材料所写个人理解，如有不当，欢迎大家指正~~~谢谢一、Zookeeper介绍 zookeeper，见名知意嘛，zoo动物园，keeper保持者、管理员，结合起来就是动物管理员，为什么这么说呢？不放大家可以看一看目前大数据技术：比如Hadoop的logo是一个黄色的大象、阅读全文

posted @ 2019-08-03 13:14 coder、阅读(397) 评论(0) 推荐(0)

coder

随笔分类 - 日常笔记

公告