摘要:
自定义Inputformat类 mapreduce框架当中已经给我们提供了很多的文件输入类,用于处理文件数据的输入,如果以上提供的文件数据类还不够用的话,我们也可以通过自定义InputFormat来实现文件数据的输入 案例需求 现在有大量的小文件,我们通过自定义InputFormat实现将小文件的内 阅读全文
posted @ 2020-08-25 23:58
Whatever_It_Takes
阅读(321)
评论(0)
推荐(0)
摘要:
Inputformat类 InputFormat是mapreduce当中用于处理数据输入的一个组件,是最顶级的一个抽象父类,主要用于解决各个地方的数据源的数据输入问题。其中InputFormat的UML类图可以通过idea进行查看(只有商业版本才有这个功能),如下图。 查看类图的方式:进行要查看的类 阅读全文
posted @ 2020-08-25 23:57
Whatever_It_Takes
阅读(281)
评论(0)
推荐(0)
摘要:
Mapreduce编程实现案例2(上下行) Writable是Hadoop的序列化格式,hadoop定义了这样一个Writable接口。 一个类要支持可序列化只需实现这个接口即可。 另外Writable有一个子接口是WritableComparable,writableComparable是既可实现 阅读全文
posted @ 2020-08-25 23:55
Whatever_It_Takes
阅读(414)
评论(0)
推荐(0)
摘要:
Mapreduce的运行模式 本地模式 我们的上面的案例1的运行模式就是本地模式,mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行,输入和输出路径既可以在本地文件系统,也可以在hdfs上。 本地模式非常便于进行业务逻辑的debug,只要在eclipse或IDEA中 阅读全文
posted @ 2020-08-25 23:53
Whatever_It_Takes
阅读(460)
评论(0)
推荐(0)
摘要:
Mapreduce编程实现案例 (wordcount) 案例需求 现有数据格式如下,每一行数据之间都是使用逗号进行分割,求取每个单词出现的次数 hello,hello world,world hadoop,hadoop hello,world hello,flume hadoop,hive hive 阅读全文
posted @ 2020-08-25 23:52
Whatever_It_Takes
阅读(361)
评论(0)
推荐(0)
摘要:
mapreduce核心思想 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce的核心思想是 阅读全文
posted @ 2020-08-25 23:50
Whatever_It_Takes
阅读(951)
评论(0)
推荐(0)
摘要:
Hadoop常用可序列化类型 hadoop没有沿用java当中基本的数据类型,而是自己进行封装了一套数据类型,其自己封装的类型与java的类型对应如下 表4-1 常用的数据类型对应的Hadoop数据序列化类型 Java类型 Hadoop Writable类型 Boolean BooleanWrita 阅读全文
posted @ 2020-08-25 23:49
Whatever_It_Takes
阅读(800)
评论(0)
推荐(0)
摘要:
多个集群之间的数据拷贝 在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,hadoop自带也有命令可以帮我们实现这个功能 1、本地文件拷贝scp cd /kkb/soft scp -r jdk 阅读全文
posted @ 2020-08-25 23:48
Whatever_It_Takes
阅读(577)
评论(0)
推荐(0)
摘要:
小文件治理 思考一个问题:无论存储大文件还是小文件,都会产生元数据,如果有很多小文件,是否划算? 不划算,每个文件、目录、块都大概有150字节的元数据,文件数量的限制也由namenode内存大小决定,如果小文件过多则会造成namenode的压力过大,且HDFS能存储的数据总量也会变小。 小文件治理的 阅读全文
posted @ 2020-08-25 23:47
Whatever_It_Takes
阅读(459)
评论(0)
推荐(0)
摘要:
datanode详解 datanode工作机制 1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据。元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上 阅读全文
posted @ 2020-08-25 23:46
Whatever_It_Takes
阅读(883)
评论(0)
推荐(1)
摘要:
🌈NameNode和SecondaryNameNode的工作机制 如何快速检索元数据? NameNode主要负责集群当中的元数据信息管理,而且元数据信息需要经常随机访问,因为元数据信息必须高效的检索,那么如何保证namenode快速检索呢??元数据信息保存在哪里能够快速检索呢??如何保证元数据的持 阅读全文
posted @ 2020-08-25 23:45
Whatever_It_Takes
阅读(914)
评论(0)
推荐(1)
摘要:
🌈hdfs写入流程(面试重点) 一个文件上传到hdfs文件系统的简略过程 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block 阅读全文
posted @ 2020-08-25 23:44
Whatever_It_Takes
阅读(1690)
评论(0)
推荐(1)
摘要:
hdfs的JavaAPI开发 windows安装hadoop 解压CDH版本的在windows系统上运行的Hadoop安装包,解压路径不能有中文或者空格 在windows当中配置hadoop环境变量 将hadoop.dll文件拷贝到C:\Windows\System32 创建Maven工程并导入ja 阅读全文
posted @ 2020-08-25 23:43
Whatever_It_Takes
阅读(406)
评论(0)
推荐(0)
摘要:
hdfs的shell命令操作 hdfs的shell命令操作的主要类型: 1、对hdfs的操作命令 2、获得一些配置相关的命令 3、管理员相关的命令 4、文件系统检查相关的命令 hdfs命令(对hdfs的基础操作) HDFS命令有两种风格,hadoop fs开头的和hdfs dfs开头的,两种命令均可 阅读全文
posted @ 2020-08-25 23:42
Whatever_It_Takes
阅读(664)
评论(0)
推荐(0)
摘要:
hdfs功能详解 `HDFS(hadoop distributed filesystem)由四部分组成,HDFS Client、NameNode、DataNode和Secondary NameNode。HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些 阅读全文
posted @ 2020-08-25 23:41
Whatever_It_Takes
阅读(1485)
评论(0)
推荐(0)
摘要:
Hadoop发展起源 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。 阅读全文
posted @ 2020-08-25 23:40
Whatever_It_Takes
阅读(551)
评论(0)
推荐(0)
摘要:
hadoop环境搭建 安装虚拟机 下载镜像文件 下载centOS7镜像文件 新建文件夹 新建用于放置虚拟机上不同系统的文件,方便管理。 新建node01节点 在windows某个盘上创建一个文件夹,用于放置node01节点虚拟机文件。命名可以为:大数据开发环境 开启node01节点 分区选择自动分区 阅读全文
posted @ 2020-08-25 23:39
Whatever_It_Takes
阅读(466)
评论(0)
推荐(0)
摘要:
Tomcat基础 这里的Tomcat基础来自另一个教程:https://www.bilibili.com/video/BV1Y7411K7zz?p=103 JavaWeb概念 a)什么是 JavaWeb JavaWeb 是指,所有通过 Java 语言编写可以通过浏览器访问的程序的总称,叫 JavaW 阅读全文
posted @ 2020-08-25 07:22
Whatever_It_Takes
阅读(700)
评论(0)
推荐(0)
摘要:
Git Git介绍 Git是一个开源的分布式版本控制系统,分布式相比集中式的最大区别是Git没有“中央服务器”,每位开发者都可以通过克隆远程库,在本地机器上存储一个完整的Git仓库,还可以把代码的修改提交到本地库 目的:借助github托管项目代码。 基本概念: 仓库(repository):仓库用 阅读全文
posted @ 2020-08-25 06:31
Whatever_It_Takes
阅读(181)
评论(0)
推荐(0)
摘要:
SVN SVN是subversion的缩写,是一个开放源代码的版本控制系统,通过采用分支管理系统的高效管理,简而言之就是用于多个人共同开发同一个项目,实现共享资源,实现最终集中式的管理。 特点:一个服务器,多个客户端的集群式管理方法 SVN服务器端安装 yum install subversion 阅读全文
posted @ 2020-08-25 06:29
Whatever_It_Takes
阅读(72)
评论(0)
推荐(0)
摘要:
版本控制 Ø 版本控制是指对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理,是软件配置管理的核心思想之一。 Ø 任职角色:配置管理员 版本控制介绍 Ø 协同修改 多人并行不悖的修改服务器端的同一个文件。 Ø 数据备份 不仅保存目录和文件的当前状态, 还能够保存每一个提交过的历史状态。 阅读全文
posted @ 2020-08-25 06:27
Whatever_It_Takes
阅读(150)
评论(0)
推荐(0)
摘要:
Spark调优——分配更多的资源 分配更多的资源是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的。 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,就是要来调节最优的资源配置; 在这个基 阅读全文
posted @ 2020-08-25 06:24
Whatever_It_Takes
阅读(440)
评论(0)
推荐(0)
摘要:
sparksql处理点击流日志数据案例(★★★★★) 需求描述 通过sparsql对用户访问产生点击流日志数据进行分析处理,计算出对应的指标 工具类开发 代码开发——校验日志数据进行字段解析提取的工具类AccessLogUtils import scala.util.matching.Regex / 阅读全文
posted @ 2020-08-25 06:19
Whatever_It_Takes
阅读(365)
评论(0)
推荐(0)
摘要:
sparksql整合hive spark整合hive步骤 把node03的hive安装目录下的配置文件hive-site.xml拷贝到每一个spark安装目录下对应的conf文件夹中(3台机器) cd /kkb/install/hive-1.1.0-cdh5.14.2/conf cp hive-si 阅读全文
posted @ 2020-08-25 06:15
Whatever_It_Takes
阅读(193)
评论(0)
推荐(0)
摘要:
sparksql中自定义函数(★★★★★) 创建文件F:/test/test_udf.txt hello Hadoop DataFrame spark 自定义UDF函数 代码开发 import org.apache.spark.sql.api.java.UDF1 import org.apache. 阅读全文
posted @ 2020-08-25 06:12
Whatever_It_Takes
阅读(223)
评论(0)
推荐(0)
摘要:
sparksql 操作hivesql 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.3.3</version> </dependenc 阅读全文
posted @ 2020-08-25 06:09
Whatever_It_Takes
阅读(843)
评论(0)
推荐(0)
摘要:
通过IDEA开发程序实现把RDD转换DataFrame 官网学习如何创建spark sql Scala程序 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <v 阅读全文
posted @ 2020-08-25 06:02
Whatever_It_Takes
阅读(411)
评论(0)
推荐(0)
摘要:
# shell编程快速入门 编写一个shell脚本hello.sh #/bin/bash echo 'hello world' 运行的方法: 方法1: sh hello.sh 方法2 chmod +x hello.sh ./hello.sh 说明: #!告诉系统这个脚本需要用什么解释器来执行 文件 阅读全文
posted @ 2020-08-25 05:59
Whatever_It_Takes
阅读(162)
评论(0)
推荐(0)
摘要:
DataSet概述 DataSet是什么 DataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。 强类型:所属类型必须在编译时确定。 DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用 阅读全文
posted @ 2020-08-25 05:52
Whatever_It_Takes
阅读(742)
评论(1)
推荐(0)
摘要:
# linux上安装禅道 环境准备 1.一台Linux服务器, 操作系统: CentOS 6.4 32位 (装在shop环境上即可) 2.Xshell 6.0 3.Xftp 5.0 4.ZenTaoPMS.9.8.3.zbox_86.tar.gz安装包 (在共享文件夹中) 把禅道安装包上传到lin 阅读全文
posted @ 2020-08-25 05:50
Whatever_It_Takes
阅读(436)
评论(0)
推荐(0)
摘要:
# linux常用命令 操作文件及目录 命令 参数 示例 说明 cd cd /home 切换目录 pwd pwd 显示当前工作目录 touch touch 1.txt 创建空文件 mkdir mkdir testdir 创建一个新目录 -p mkdir -p /dir1/dir2 创建多级目录,父 阅读全文
posted @ 2020-08-25 05:22
Whatever_It_Takes
阅读(309)
评论(0)
推荐(0)
摘要:
DataFrame概述 spark core >操控RDD spark sql >操控DataFrame DataFrame发展 DataFrame前身是schemaRDD,这个schemaRDD是直接继承自RDD,它是RDD的一个实现类 在spark1.3.0之后把schemaRDD改名为Data 阅读全文
posted @ 2020-08-25 04:56
Whatever_It_Takes
阅读(1416)
评论(0)
推荐(0)
摘要:
# Linux介绍 Linux起源 芬兰大学生Linus Torvalds在从1990年底到1991年的几个月中,利用Minix操作系统作为开发平台,为他自己的操作系统课程和后来的上网用途而陆续编写了若干程序。 1991.10.5 在Internet的comp.os.minix讨论区发表了一篇文章 阅读全文
posted @ 2020-08-25 04:52
Whatever_It_Takes
阅读(207)
评论(0)
推荐(0)
摘要:
sparksql概述 sparksql的前世今生 Shark是专门针对于spark的构建大规模数据仓库系统的一个框架 Shark与Hive兼容、同时也依赖于Spark版本 Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务 随着性能优化的上限,以 阅读全文
posted @ 2020-08-25 04:47
Whatever_It_Takes
阅读(745)
评论(0)
推荐(0)
摘要:
基于wordcount程序剖析spark任务的提交、划分、调度流程(★★★★★) 阅读全文
posted @ 2020-08-25 04:42
Whatever_It_Takes
阅读(193)
评论(0)
推荐(0)
摘要:
DAG有向无环图生成 DAG是什么 DAG(Directed Acyclic Graph) 叫做有向无环图(有方向,无闭环,代表着数据的流向),原始的RDD通过一系列的转换就形成了DAG。 下图是基于单词统计逻辑得到的DAG有向无环图 DAG划分stage(★★★★★) stage是什么 一个Job 阅读全文
posted @ 2020-08-25 04:30
Whatever_It_Takes
阅读(4480)
评论(1)
推荐(1)

浙公网安备 33010602011771号