随笔分类 - 大数据
摘要:源码见:https://github.com/hiszm/hadoop-train Hadoop集群规划 HDFS: NN(NameNode) DN(DataNode) YARN: RM(ResourceManager) NM(NodeManager) hadoop000 192.168.43.20
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train 外部表在Hive中的使用 带有EXTERNAL关键字的就是外部表 不然一般都是内部表(managed_table) CREATE EXTERNAL TABLE emp_external( empno INT, ena
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train Hive概述 http://hive.apache.org/ Hive是什么 The Apache Hive ™ data warehouse software facilitates reading, writin
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train 用户行为日志概述 用户每次搜索和点击的记录 历史行为数据,从历史订单 ==> 然后进行推荐/ 从而 提高用户的转化量 (最终目的) 日志内容 20979872853^Ahttp://www.yihaodian.com
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train YARN产生背景 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train 需求分析 access.log 第二个字段:手机号 倒数第三字段:上行流量 倒数第二字段:下行流量 需求:统计每个手机号上行流量和、下行流量和、总的流量和(上行流量和+下行流量和) Access.java 手机号、上
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train 定义Mapper实现 WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> public class Mapper<KEYIN,
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train MapReduce概述 是一个分布式计算框架 ,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 ma
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train HDFS写数据 HDFS读数据 元数据 HDFS的目录结构以及每个文件的BLOCK信息(id,副本系数,存储的位置[ { hadoop/tmp/dir } ] /name/.......) Checkpoint Sa
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train HDFS项目实战 需求分析 使用HDFS Java API 才完成HDFS文件系统上的额文件的词频统计 例子 /test/1.txt ==> ' hello world' /test/2.txt ==> ' hell
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train HDFS API编程 开发环境搭建 porn.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/PO
阅读全文
摘要:源码见:https://github.com/hiszm/hadoop-train HDFS概述(Hadoop Distributed File System) 分布式的 commodity、low-cost hardware:去中心化IoE fault-tolerant:高容错 , 默认采用3副本
阅读全文
摘要:
目录
Hadoop概述
Hadoop核心组件之HDFS.
Hadoop核心组件之MapReduce
Hadoop核心组件之YARN
Hadoop优势
Hadoop发展史
Hadoop生态圈
Hadoop发行版选型
OOTB环境的使用
阅读全文
目录
Hadoop概述
Hadoop核心组件之HDFS.
Hadoop核心组件之MapReduce
Hadoop核心组件之YARN
Hadoop优势
Hadoop发展史
Hadoop生态圈
Hadoop发行版选型
OOTB环境的使用
阅读全文
摘要:
Hadoop
分布式文件系统HDFS
分布式资源调度YARN
分布式计算机框架MapReduce
数据仓库Hive
Hadoop分布式集群搭建
阅读全文
Hadoop
分布式文件系统HDFS
分布式资源调度YARN
分布式计算机框架MapReduce
数据仓库Hive
Hadoop分布式集群搭建
阅读全文

浙公网安备 33010602011771号