随笔分类 - BigData
摘要:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。 一、架构 https://flume.apache.org/FlumeUse
阅读全文
摘要:在安装 CDH 时,到 Install Parcels 这一步,分发 Parcels 一直过不去,界面一直报 Failure due to stall on seeded torrent,查看日志一直重复报 No hash WARN scm-web-412:com.cloudera.server.w
阅读全文
摘要:这里以四台节点搭建 IPHostNameOS 192.168.8.5 h5(主) CentOS 7.5 192.168.8.6 h6(从) CentOS 7.5 192.168.8.7 h7(从) CentOS 7.5 192.168.8.8 h8(从) CentOS 7.5 一、节点基本配置 1.
阅读全文
摘要:Hadoop 框架自带的 InputFormat 类型不能满足所有应用场景,需要自定义 InputFormat 来解决实际问题。 无论 HDFS 还是 MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义 InputFormat 实
阅读全文
摘要:在使用 BytesWritable 进行小文件合并时,发现长度与原类容不一致,会多出一些空格 测试代码 结果,看到多出了一个空格 查看 BytesWritable 源码,发现复制后数组大小会被处理,真正存储类容长度的为 size 属性 既然知道长度,在转换时设置上就好了 http://hadoop.
阅读全文
摘要:在运行 MapReduce 程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。那么,针对不同的数据类型,MapReduce 是如何读取这些数据? 1.TextInputFormat 与 CombineTextInputFormat 类似,都是按行读取,键为偏移量,值为当前行的
阅读全文
摘要:MapReduce 框架默认的 TextInputFormat 切片机制是对任务按文件规划切片,如果有大量小文件,就会产生大量的 MapTask,处理小文件效率非常低。 CombineTextInputFormat:用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就
阅读全文
摘要:MapReduce 默认使用 TextInputFormat 进行切片,其机制如下 测试读取数据的方式 输入数据(中间为空格,末尾为换行符) map 阶段的 k-v 可以看出 k 为偏移量,v 为一行的值,即 TextInputFormat 按行读取 以 WordCount 为例进行测试,测试切片数
阅读全文
摘要:下载源码 Source download:https://hadoop.apache.org/releases.html & https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop 这里以 2.9.2 为例,查看源码中的编译说明文件 BUILDING.t
阅读全文
摘要:定义 优缺点 运行 组成 输入和输出 虽然 Hadoop 框架是用 Java™ 实现的,但 MapReduce 应用程序不一定需要用 Java 编写: Hadoop Streaming 是一个实用程序,它允许用户使用任何可执行文件(如shell)作为 mapper 和/或 reducer 创建和运行
阅读全文
摘要:Hadoop 序列化特点 常用数据类型对应的 Hadoop 数据序列化类型 Java类型 Hadoop Writable类型 boolean BooleanWritable byte ByteWritable int IntWritable float FloatWritable long Long
阅读全文
摘要:pom.xml Code 本地运行 input(123.txt) output(part-r-00000) 打包在集群上运行 使用 maven-assembly-plugin 打包,使用方法:http://maven.apache.org/components/plugins/maven-assem
阅读全文
摘要:Architecture Standalone https://nightlies.apache.org/flink/flink-docs-release-2.0/zh/docs/try-flink/local_installation curl -LOJ https://mirrors.cloud
阅读全文
摘要:一、NameNode、Fsimage 、Edits 和 SecondaryNameNode 概述 NameNode:在内存中储存 HDFS 文件的元数据信息(目录) Fsimage(镜像文件) 和 Edits(编辑日志):记录内存中的元数据 SecondaryNameNode:负责 Edits 转化
阅读全文
摘要:一、上传数据 二、下载数据 三、读写时的节点位置选择 1.网络节点距离(机架感知) 2.Block 的副本放置策略 NameNode 通过 Hadoop Rack Awareness 确定每个 DataNode 所属的机架 ID 简单但非最优的策略 常见情况策略(HDFS 采取的策略) 如果复制因子
阅读全文
摘要:一、先看集群上的配置,这里设置了文件块副本数为 3 上传一个文件试试 二、在资源目录添加 hdfs-site.xml 配置后再上传 代码中的上传名字做下改变 三、在代码中指定下配置参数 总结:代码设置 > 工程资源目录配置 > 集群配置 > 默认配置
阅读全文
摘要:一、pom.xml 二、测试 文件上传 手动 IO 流方式 文件下载 手动 IO 流方式 分块方式,这里要下载的文件被 hdfs 切割成了 3 块 分块下载完毕后合并文件 文件删除 重命名 查看文件详情 判断是文件还是文件夹 Windows 运行 Hadoop 问题:https://wiki.apa
阅读全文
摘要:一、使用 setrep 命令来设置 二、文件块在磁盘上的路径 三、文件的分割 四、改变副本数后的文件的变化 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
阅读全文
摘要:Components https://blog.csdn.net/Young_IT/article/details/133808672 & https://segmentfault.com/a/1190000038683520 Local 单机,Spark 做计算,也做资源调度 curl -LOJ
阅读全文
摘要:一、操作 HDFS 上的文件有两个命令可以用 hdfs dfs:只能操作 HDFS 上的文件 Usage: hdfs [--config confdir] [--loglevel loglevel] COMMAND where COMMAND is one of: dfs run a filesys
阅读全文

浙公网安备 33010602011771号