上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 69 下一页

2022年4月7日

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&MapReduce.V16|——|Hadoop.v16|InputFormat机制|combineInputFormation|

摘要: 一、MapReduce读取和输出数据:InputFormat ### InputFormat ~~~ 运行MapReduce程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、 ~~~ 数据库表等。那么,针对不同的数据类型,MapReduce是如何读取这些数据的呢? ### InputFo 阅读全文

posted @ 2022-04-07 14:11 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&MapReduce.V15|——|Hadoop.v15|数据倾斜解决方案|

摘要: 一、数据倾斜解决方案 ### 什么是数据倾斜? ~~~ 数据倾斜无非就是大量的相同key被partition分配到一个分区里, ### 现象 ~~~ 绝大多数task执行得都非常快,但个别task执行的极慢。甚至失败! ### 通用解决方案: ~~~ 对key增加随机数。 二、编程代码:创建项目:s 阅读全文

posted @ 2022-04-07 14:10 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&MapReduce.V14|——|Hadoop.v14|MR map端join|

摘要: 一、MR reduce端Join分析: ### MR reduce端Join分析: ~~~ [Map端join_实现分析] ~~~ [Map端join_代码实现] ~~~ [Map端join_程序验证] ~~~ # 缺点: ~~~ 这种方式中,join的操作是在reduce阶段完成,reduce端的 阅读全文

posted @ 2022-04-07 14:10 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&MapReduce.V12|——|Hadoop.v12|shuffle机制详解之GroupingComparator分组|

摘要: 一、分区排序(默认的分区规则,区内有序) ~~~ 分区排序(默认的分区规则,区内有序) ~~~ [shuffle机制详解之GroupingComparator分组] ### GroupingComparator ~~~ GroupingComparator是mapreduce当中reduce端的一个 阅读全文

posted @ 2022-04-07 14:09 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&MapReduce.V13|——|Hadoop.v13|MR reduce端join|

摘要: 一、MR reduce端join ### MR reduce端join ~~~ [Reduce端Join需求分析] ~~~ [Reduce端Join-Mapper&Bean对象] ~~~ [Reduce端Join-Reducer&Driver实现] ~~~ [Reduce端Join-程序验证] ## 阅读全文

posted @ 2022-04-07 14:09 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&MapReduce.V10|——|Hadoop.v10|MapReduce原理剖析之自定义分区案例|

摘要: 一、[MapReduce原理剖析之自定义分区案例]:MapReduce中的Combiner:combiner运行机制: ### MapReduce中的Combiner:combiner运行机制: ~~~ Combiner是MR程序中Mapper和Reducer之外的一种组件 ~~~ Combiner 阅读全文

posted @ 2022-04-07 14:08 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&MapReduce.V11|——|Hadoop.v11|Shutffle机制详解之全排序|分区排序|

摘要: 一、[Shutffle机制详解之全排序|分区排序]:MapReduce中的排序 ### 排序是MapReduce框架中最重要的操作之一。 ~~~ MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。 ~~~ 任何应用程序中的数据均会被排序,而不管逻辑. 阅读全文

posted @ 2022-04-07 14:08 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&MapReduce.V09|——|Hadoop.v09|MapReduce原理剖析之自定义分区及ReduceTask数|自定义分区案例.v02|

摘要: 一、编程实现步骤 ### 创建项目:partition ### Mapper package com.yanqi.mr.partition; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; imp 阅读全文

posted @ 2022-04-07 14:07 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&MapReduce.V07|——|Hadoop.v07|MapReduce原理剖析之切片机制源码解读|ReduceTask工作机制|

摘要: 一、切片机制源码阅读 ~~~ [MapReduce原理剖析之切片机制源码解读] ~~~ [MapReduce原理剖析之ReduceTask工作机制] ### MapTask并行度是不是越多越好呢? ~~~ 默认就是128M; ~~~ 答案不是,如果一个文件仅仅比128M大一点点也被当成一个split 阅读全文

posted @ 2022-04-07 14:06 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&MapReduce.V08|——|Hadoop.v08|MapReduce原理剖析之自定义分区及ReduceTask数|自定义分区案例.v01|

摘要: 一、MapReduce原理剖析之自定义分区及ReduceTask数量 ### MapReduce原理剖析之自定义分区及ReduceTask数量 ~~~ [MapReduce原理剖析之自定义分区及ReduceTask数量] ~~~ [MapReduce原理剖析之自定义分区案例] ### MapRedu 阅读全文

posted @ 2022-04-07 14:06 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——|Hadoop&MapReduce.V06|——|Hadoop.v06|MapReduce原理分析之MapTask运行机制|并行度|

摘要: 一、MapTask运行机制详解:MapTask流程 ### MapReduce原理分析 ~~~ [MapReduce原理分析之MapTask运行机制] ~~~ [MapReduce原理分析之MapTask并行度] ### 详细步骤: ~~~ 首先,读取数据组件InputFormat(默认TextIn 阅读全文

posted @ 2022-04-07 14:05 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&MapReduce.V05|——|Hadoop.v05|MapRedice之writable序列化接口|

摘要: 一、序列化Writable接口 ~~~ [MapRedice之writable序列化接口] ~~~ [MapRedice之writable序列化接口案例part01] ~~~ [MapRedice之writable序列化接口案例part02] ~~~ [MapRedice之writable序列化接口 阅读全文

posted @ 2022-04-07 14:04 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&MapReduce.V04|——|Hadoop.v04|WordCount案例之编写本地YARN运行.v02|

摘要: 一、运行任务 ### 本地模式 ~~~ 直接运行会报错:因为没有设置传参 ~~~ 直接Idea中运行驱动类即可:idea运行需要传入参数: ~~~ IDEA.Driver传参:WORDCOUNTDRIVER——>edit configuration ~~~ 在program arguments设置参 阅读全文

posted @ 2022-04-07 14:03 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&MapReduce.V02|——|Hadoop.v02|MapReduce编程规范|

摘要: 一、MapReduce编程规范及示例编写 ### Mapper类 ~~~ 用户自定义一个Mapper类继承Hadoop的Mapper类 ~~~ Mapper的输入数据是KV对的形式(类型可以自定义) ~~~ Map阶段的业务逻辑定义在map()方法中 ~~~ Mapper的输出数据是KV对的形式(类 阅读全文

posted @ 2022-04-07 14:02 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&MapReduce.V03|——|Hadoop.v03|WordCount案例之编写本地YARN运行.v01|

摘要: 一、WordCount代码实现 ~~~ [WordCount案例之编写Mapper类] ~~~ [WordCount案例之Reducer类] ~~~ [WordCount案例之Driver类] ~~~ [WordCount案例之本地验证] ~~~ [WordCount案例之运行YARN集群] ### 阅读全文

posted @ 2022-04-07 14:02 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&MapReduce.V01|——|Hadoop.v01|MapReduce编程思想|案例解析|

摘要: 一、MapReduce编程框架 ### MapReduce思想 ~~~ MapReduce思想在生活中处处可见。我们或多或少都曾接触过这种思想。 ~~~ MapReduce的思想核心是分而治之, ~~~ 充分利用了并行处理的优势。 ~~~ 即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而 阅读全文

posted @ 2022-04-07 14:01 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-07 14:00 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&HDFS.V10|——|Hadoop.v10|Hadoop的限额/归档及集群安全模式|

摘要: 一、Hadoop的限额与归档以及集群安全模式 ### 高级命令 ~~~ HDFS文件限额配置 ~~~ HDFS文件的限额配置允许我们以文件大小或者文件个数来限制 ~~~ 我们在某个目录下上传的文件数量或者文件内容总量, ~~~ 以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量 ## 阅读全文

posted @ 2022-04-07 13:59 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&HDFS.V11|——|Hadoop.v11|日志采集案例|

摘要: 一、日志采集综合案例 ### 日志采集综合案例 ~~~ [日志采集案例之需求分析] ~~~ [日志采集案例之调度功能实现] ~~~ [日志采集案例之调度功能实现] ~~~ [日志采集之采集上传功能实现] ~~~ [日志采集案例之验证及调优] ### 需求分析 ~~~ 定时采集已滚动完毕日志文件 ~~ 阅读全文

posted @ 2022-04-07 13:59 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&HDFS.V09|——|Hadoop.v09|HDFS元数据管理机制|NN和2NN.v02|

摘要: 一、Fsimage文件内容 ### 官方地址: https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/HdfsImageViewer.html ### 查看oiv和oev命令 [root@linux121 curr 阅读全文

posted @ 2022-04-07 13:58 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&HDFS.V07|——|Hadoop.v07|HDFS读写解析|

摘要: 一、HDFS读写解析:HDFS读数据流程 ### HDFS读数据流程 ~~~ 客户端通过Distributed FileSystem向NameNode请求下载文件, ~~~ NameNode通过查询元数据,找到文件块所在的DataNode地址。 ~~~ 挑选一台DataNode(就近原则,然后随机) 阅读全文

posted @ 2022-04-07 13:57 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&HDFS.V08|——|Hadoop.v08|HDFS元数据管理机制|NN和2NN.v01|

摘要: 一、HDFS元数据管理机制 ### [HDFS分布式文件系统] ~~~ [HDFS元数据管理机制Namenode、Fsimage及Edits编辑日志] ~~~ [HDFS元数据管理机制之2NN及checkpoint机制] ~~~ [HDFS元数据管理机制之Fsimage及Edits文件解析] ~~~ 阅读全文

posted @ 2022-04-07 13:57 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&HDFS.V06|——|Hadoop.v06|HDFS|IO流操作|文件上传下载|seek读取.v02|

摘要: 一、编程代码:使用IO流操作 ### 上传文件 package com.yanqi.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.f 阅读全文

posted @ 2022-04-07 13:56 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00020|——————————|BigDataEnd|——|Hadoop&HDFS.V05|——|Hadoop.v05|HDFS|IO流操作|文件上传下载|seek读取.v01|

摘要: 一、[HDFS之API客户端IO流操作]——[文件上传下载]——[seek读取] ### I/O流操作HDFS ~~~ 以上我们使用的API操作都是HDFS系统框架封装好的。 ~~~ 我们自己也可以采用IO流的方式实现文件的上传和下载。 二、文件上传 ### 文件上传 ~~~ 需求:把本地e盘上的y 阅读全文

posted @ 2022-04-07 13:55 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&HDFS.V04|——|Hadoop.v04|HDFS文件上传下载|文件类型判断|

摘要: 一、上传文件 ### 上传文件 ~~~ [HDFS之API客户端上传下载文件] ~~~ [HDFS之API客户端文件详情及文件类型判断] ~~~ [HDFS分布式文件系统] ### 编写源代码 @Test public void testCopyFromLocalFile() throws IOEx 阅读全文

posted @ 2022-04-07 13:54 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&HDFS.V03|——|Hadoop.v03|HDFS之API客户端|解决文件|权限问题|

摘要: 一、[HDFS之API客户端解决文件权限问题] ### JAVA客户端:客户端环境准备 ~~~ 将Hadoop-2.9.2安装包解压到非中文路径(例如:E:\hadoop-2.9.2)。 ~~~ 配置HADOOP_HOME环境变量 ~~~ 配置Path环境变量。 ~~~ 在IDEA下创建一个Mave 阅读全文

posted @ 2022-04-07 13:53 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&HDFS.V02|——|Hadoop.v02|HDFS之shell命令行客户端|

摘要: 一、HDFS之shell命令行客户端:Shell命令行操作HDFS ### 基本语法 ~~~ bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 ### 命令大全 [root@linux121 hadoop-2.9.2]# bin/hdfs dfs Usage: hado 阅读全文

posted @ 2022-04-07 13:52 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&HDFS.V01|——|Hadoop.v01|HDFS重要概念|

摘要: 一、HDFS概念 ### HDFS简介 ~~~ HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统) ~~~ 是 Hadoop 核心组成,是分布式存储服务。 ~~~ 分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景, ~~~ 它们为 阅读全文

posted @ 2022-04-07 13:51 yanqi_vip 阅读(32) 评论(0) 推荐(0)

2022年4月6日

|NO.Z.00015|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-06 16:31 yanqi_vip 阅读(14) 评论(0) 推荐(0)

|NO.Z.00012|——————————|^^ 部署 ^^|——|Hadoop&Hadoop核心框架.V12|——|Hadoop.v12|集群启动|单节点启动|群启动|

摘要: 一、[Hadoop完全分布式集群搭建之集群启动] ### 启动集群注意事项 ~~~ # 注意:如果集群是第一次启动,需要在Namenode所在节点格式化NameNode, ~~~ # 非第一次不用执行格式化Namenode操作!! 二、单节点启动 ### 所有节点执行 ~~~ 输出这句内容说明格式化 阅读全文

posted @ 2022-04-06 16:30 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00013|——————————|^^ 部署 ^^|——|Hadoop&Hadoop核心框架.V13|——|Hadoop.v13|集群测试|

摘要: 一、集群测试 ### HDFS 分布式存储初体验 ~~~ 从linux本地文件系统上传下载文件验证HDFS集群工作正常 ~~~ # 本地hoome目录创建一个文件 [root@linux121 ~]# vim test.txt hello hdfs ~~~ # 创建一个目录 [root@linux1 阅读全文

posted @ 2022-04-06 16:30 yanqi_vip 阅读(13) 评论(0) 推荐(0)

|NO.Z.00014|——————————|^^ 部署 ^^|——|Hadoop&Hadoop核心框架.V14|——|Hadoop.v14|历史日志服务配置|

摘要: 一、[Hadoop完全分布式集群搭建之历史日志服务器配置] ### 在Yarn中运行的任务产生的日志数据不能查看, ~~~ 为了查看程序的历史运行情况,需要配置一下历史日志服务器。具体配置步骤如下: ### 配置mapred-site.xml [root@linux121 hadoop]# pwd 阅读全文

posted @ 2022-04-06 16:30 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00011|——————————|^^ 部署 ^^|——|Hadoop&Hadoop核心框架.V11|——|Hadoop.v11|rsync-script脚本编写|

摘要: 一、[Hadoop完全分布式集群搭建之编写分发脚本] ### 分发配置:rsync-script命令详解 ### 编写集群分发脚本rsync-script ~~~ rsync 远程同步工具 ~~~ rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。 ~~~ rsync和 阅读全文

posted @ 2022-04-06 16:29 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00009|——————————|^^ 部署 ^^|——|Hadoop&Hadoop核心框架.V09|——|Hadoop.v09|环境变量配置|

摘要: 一、[Hadoop完全分布式集群搭建值环境变量配置]:集群规划 框架 linux121 linux122 linux123 HDFS NameNode、DataNode DataNode SecondaryNameNode、DataNode YARN NodeManager NodeManager 阅读全文

posted @ 2022-04-06 16:28 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00010|——————————|^^ 部署 ^^|——|Hadoop&Hadoop核心框架.V10|——|Hadoop.v10|集群组件部署|

摘要: 一、[Hadoop完全分布式集群搭建值集群规划实施]:集群配置 ### Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置 ### HDFS集群配置 ~~~ 将JDK路径明确配置给HDFS(修改hadoop-env.sh) ~~~ 指定NameNode节 阅读全文

posted @ 2022-04-06 16:28 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00008|——————————|^^ 部署 ^^|——|Hadoop&Hadoop核心框架.V08|——|Hadoop.v08|虚拟机环境配置|

摘要: 一、Apache Hadoop 完全分布式集群搭建 ### 软件和操作系统版本 ~~~ Hadoop框架是采用Java语言编写,需要java环境(jvm) ~~~ JDK版本:JDK8版本 ### 集群: ~~~ 知识点学习:统一使用vmware虚拟机虚拟三台linux节点,linux操作系统:Ce 阅读全文

posted @ 2022-04-06 16:27 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&Hadoop核心框架.V06|——|Hadoop.v06|HDFS/MapReduce/YARN框架|

摘要: 一、[Hadoop重要组成之HAFS/MapReduce/YARN框架] ### Hadoop重要组成之HAFS框架 ~~~ 1、Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块 ~~~ 2、Hadoop HDFS:(Hado 阅读全文

posted @ 2022-04-06 16:26 yanqi_vip 阅读(56) 评论(0) 推荐(0)

|NO.Z.00007|——————————|^^ 部署 ^^|——|Hadoop&Hadoop核心框架.V07|——|Hadoop.v07|基础环境配置|

摘要: 一、配置环境规划 ### vmware、linux版本 ~~~ vmware版本:VMware-workstation-full-15.5.5-16285975.exe ~~~ Linux版本:CentOS-7-x86_64-DVD-1810.iso ### Linux主机配置参数 ~~~ CPU: 阅读全文

posted @ 2022-04-06 16:26 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&Hadoop核心框架.V04|——|Hadoop.v03|大数据发展趋势|从业人员发展路线|

摘要: 一、[大数据发展趋势及从业人员发展路线] ### 大数据发展趋势 ~~~ # 1、2015年党的十八届五中全会提出“实施国家大数据战略”, ~~~ 国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期, ~~~ 国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。 ~~~ # 阅读全文

posted @ 2022-04-06 16:25 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&Hadoop核心框架.V05|——|Hadoop.v04|分布式集群搭建|

摘要: 一、什么是Hadoop ### Hadoop 是一个适合大数据的分布式存储和计算平台。 ~~~ 如前所述,狭义上说Hadoop就是一个框架平台, ~~~ 广义上讲Hadoop代表大数据的一个技术生态圈,包括很多其他软件框架 Hadoop生态圈技术栈 Hadoop(HDFS + MapReduce + 阅读全文

posted @ 2022-04-06 16:25 yanqi_vip 阅读(39) 评论(0) 推荐(0)

上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 69 下一页

导航