随笔分类 - Hadoop基础
摘要:了解YARN 一、什么是YARN? Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数
阅读全文
摘要:Hive基础 一、Hive是什么? Hive的本质就是:将HQL/SQL转化为MapReduce程序在Hadoop上运行,可以看成是一个SQL解析引擎 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 Hive表是HDFS的文件目录,一个表对
阅读全文
摘要:在Hive中创建表时,默认情况下Hive负责管理数据。这意味着Hive把数据移入到它的“仓库目录”。另外一种选择是创建一个“外部表”(external table)。这会让Hive到仓库目录以外的位置去访问数据。 这两种表的区别表现在LOAD和DROP命令的语义上。先来看托管表(managed ta
阅读全文
摘要:五、MapReduce进阶编程 目录: 1.筛选日志文件并生成序列化文件 2.Hadoop Java API读取序列化日志文件 3.优化日志文件统计程序 4.Eclipse提交日志文件统计程序 5.小结 6.实训 7.小练习 任务背景:网站运营方又提出来新的需求,为了比较今年与去年同期的用户访问数据
阅读全文
摘要:第四章、MapReduce编程入门 目录结构 1.使用Eclipse建立MapReduce工程 1.1 下载与安装Eclipse 1.2 配置MapReduce环境 1.3 新建MapReduce工程 2.通过源码初识MapReduce工程 2.1 通俗理解MapReduce原理 2.2 了解MR实
阅读全文
摘要:第三章、Hadoop基础操作 目录结构: 1.查看Hadoop集群的基本信息 1.1 查询集群的存储系统信息 1.2 查询系统的计算资源信息 2.上传文件到HDFS目录 2.1 了解HDFS文件系统 2.2 掌握HDFS的基本操作 2.3 任务实现 3.运行首个MapReduce任务 3.1 了解H
阅读全文
摘要:目录结构 1.Hadoop概述 1.1 Hadoop简介 1.2 Hadoop发展史 1.3 Hadoop特点 2.Hadoop核心 2.1 分布式文件系统——HDFS 2.2 分布式计算框架——MapReduce 2.3 集群资源管理器——YARN 3.Hadoop生态系统 4.Hadoop应用场
阅读全文