随笔分类 - hadoop3.1.0
摘要:阅读目录(Content) 一、作业的默认配置 二、作业的配置方式 三、Mapper类和Reducer类以及它们的子类(实现类) 3.1、Mapper概述 3.2、Reducer概述 3.2、写一个实例去使用 3.1、Mapper概述 3.2、Reducer概述 3.2、写一个实例去使用 前言 前面
阅读全文
摘要:阅读目录(Content) 一、Combiner概述 1.1、为什么需要Combiner 1.2、Combiner介绍 二、使用Combiner优化Mapduce执行 2.1、使用前提 2.2、怎么使用 2.3、利用Combiner计算每一年的平均气温 2.4、计算每一年每个气象站的平均温度 1.1
阅读全文
摘要:阅读目录(Content) 一、统计好友对数(去重) 1.1、数据准备 1.2、需求分析 1.3、代码实现 二、词频统计 2.1、数据准备 2.2、需求分析 2.3、代码实现 2.4、 运行测试 三、成绩统计 3.1、数据准备 3.2、需求分析 3.3、代码实现 3.4、执行 四、倒排索引 4.1、
阅读全文
摘要:阅读目录(Content) 一、MapReduce并行处理的基本过程 二、MapRrduce输入与输出问题 三、MapReduce实际处理流程 四、一个job的运行流程 4.1、提交作业 4.2、作业初始化 4.3、任务的分配 4.4、任务的执行 4.5、更新任务的执行进度和状态 4.6、任务完成
阅读全文
摘要:阅读目录(Content) 一、写一个MapReduce程序例子 1.1、数据准备 1.2、需求分析 1.3、编写一个解析类解析天气数据 1.4、编写一个MapReduce程序求1992I年的最高温度 1.5、使用Maven打包Jar包上传到Hadoop客户端的Linux服务器中 二、分析上面Map
阅读全文
摘要:阅读目录(Content) 一、背景 二、大数据的并行计算 三、Hadoop的MapReduce概述 3.1、需要MapReduce原因 3.2、MapReduce简介 3.3、MapReduce编程模型 四、编写MapReduce程序 4.1、数据样式与环境 4.2、需求分析 4.3、代码实现 3
阅读全文
摘要:阅读目录(Content) 一、数据完整性概述 二、HDFS的数据完整性 2.1、本地文件上传到HDFS集群时的校验 2.2、HDFS集群文件读取到本地 三、涉及数据一致性的类:LocalFileSystem和RawFileSystem 3.1、概述 3.2、编写程序验证 2.1、本地文件上传到HD
阅读全文
摘要:阅读目录(Content) 一、序列化和反序列化概述 1.1、序列化和反序列化的定义 1.2、序列化和反序列化的应用 1.3、RPC序列化格式要求 二、Hadoop中和虚序列化相关的接口和类 1.1、Hadoop对基本数据类型的包装 1.2、Writable接口 1.3、实例解释Java和Hadoo
阅读全文
摘要:阅读目录(Content) 一、压缩(Compression)概述 1.1、压缩的好处 1.2、压缩格式总结 二、编解码器(Codec)概述 三、Java编程实现文件的压缩与解压缩 3.1、原理分析 3.2、相关类和方法 3.3、Java将本地文件压缩上传到集群当中 3.4、Java将集群文件解压缩
阅读全文
摘要:阅读目录(Content) 一、HDFS中数据块概述 1.1、HDFS集群中数据块存放位置 1.2、数据块(data block)简介 1.3、对分布式文件系统中的块进行抽象会带来很多好处 二、Java访问HDFS中的数据块 2.1、相关类和方法介绍 2.2、编写程序访问 二、Java查看HDFS集
阅读全文
摘要:阅读目录(Content) 一、HDFS容错机制 1.1、故障类型(三类故障) 1.2、故障检测机制 1.3、回复:心跳信息和数据块报告 1.4、读写容错 1.5、数据节点(DN)失效 二、HDFS备份规则 1.1、故障类型(三类故障) 1.2、故障检测机制 1.3、回复:心跳信息和数据块报告 1.
阅读全文
摘要:阅读目录(Content) 一、Hadoop客户端配置 二、Java访问HDFS集群 2.1、HDFS的Java访问接口 2.2、Java访问HDFS主要编程步骤 2.3、使用FileSystem API读取数据文件 三、实战Java访问HDFS集群 3.1、环境介绍 3.2、查询HDFS集群文件系
阅读全文
摘要:阅读目录(Content) 一、HDFS概述 1.1、HDFS概述 1.2、HDFS的概念和特性 1.3、HDFS的局限性 1.4、HDFS保证可靠性的措施 二、HDFS基本概念 2.1、HDFS主从结构体系 2.2、数据块(DataBlock) 2.3、名字节点(主节点:NameNode) 2.4
阅读全文
摘要:阅读目录(Content) 一、搭建Hadoop全分布式集群前提 1.1、网络 1.2、安装jdk 1.3、安装hadoop 二、Hadoop全分布式集群搭建的配置 2.1、hadoop-env.sh 2.2、core-site.xml 2.3、hdfs-site.xml 2.4.mapred-si
阅读全文
摘要:阅读目录(Content) 一、引言(大数据时代) 1.1、从数据中得到信息 1.2、大数据表象概念 二、大数据基础 2.1、什么是大数据? 2.2、大数据的基本特征 2.3、大数据的意义 2.4、大数据的系统架构(整体架构) 2.5、大数据处理平台 2.6、大数据中的几个概念 三、Hadoop概述
阅读全文
摘要:阅读目录(Content) 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode) 1.2、伪分布式模式(Pseudo-Distrubuted Mode) 1.3、全分布式集群模式(Full-Distributed Mode) 二、搭建
阅读全文
摘要:1.是在hdfs的配置文件中配置 2.是在app程序中设置 注意:假设配置文件的最大是 20K 最小是 10K 文件大小为72 块数就是 4 在程序中设置最大为15K 切割块数 5=72/15 在程序中设置最大为50K 错:切割块数 2=72/50 应该是4, 在程序中设置最大为5K 切割块数 15
阅读全文
摘要:1.随便在哪个目录新增一个文档。内容随便输入 mkdir words 2.在hdfs 中新建文件输入目录 ./hdfs dfs -mkdir /test 3.把新建的文档 (/home/hadoop/test/words) 上传到新建的(test) hdfs目录 ./hdfs dfs -put /h
阅读全文

浙公网安备 33010602011771号