摘要:源码见:https://github.com/hiszm/hadoop-train Hadoop集群规划 HDFS: NN(NameNode) DN(DataNode) YARN: RM(ResourceManager) NM(NodeManager) hadoop000 192.168.43.20 阅读全文
posted @ 2020-09-10 23:53 不洗澡的鲸鱼 阅读(40) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train 外部表在Hive中的使用 带有EXTERNAL关键字的就是外部表 不然一般都是内部表(managed_table) CREATE EXTERNAL TABLE emp_external( empno INT, ena 阅读全文
posted @ 2020-09-10 23:52 不洗澡的鲸鱼 阅读(33) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train Hive概述 http://hive.apache.org/ Hive是什么 The Apache Hive ™ data warehouse software facilitates reading, writin 阅读全文
posted @ 2020-09-10 23:50 不洗澡的鲸鱼 阅读(36) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train 用户行为日志概述 用户每次搜索和点击的记录 历史行为数据,从历史订单 ==> 然后进行推荐/ 从而 提高用户的转化量 (最终目的) 日志内容 20979872853^Ahttp://www.yihaodian.com 阅读全文
posted @ 2020-09-10 23:48 不洗澡的鲸鱼 阅读(34) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train YARN产生背景 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 阅读全文
posted @ 2020-09-10 23:47 不洗澡的鲸鱼 阅读(28) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train 需求分析 access.log 第二个字段:手机号 倒数第三字段:上行流量 倒数第二字段:下行流量 需求:统计每个手机号上行流量和、下行流量和、总的流量和(上行流量和+下行流量和) Access.java 手机号、上 阅读全文
posted @ 2020-09-10 23:46 不洗澡的鲸鱼 阅读(29) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train 定义Mapper实现 WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> public class Mapper<KEYIN, 阅读全文
posted @ 2020-09-10 23:45 不洗澡的鲸鱼 阅读(26) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train MapReduce概述 是一个分布式计算框架 ,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 ma 阅读全文
posted @ 2020-09-10 23:43 不洗澡的鲸鱼 阅读(21) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train HDFS写数据 HDFS读数据 元数据 HDFS的目录结构以及每个文件的BLOCK信息(id,副本系数,存储的位置[ { hadoop/tmp/dir } ] /name/.......) Checkpoint Sa 阅读全文
posted @ 2020-09-10 23:42 不洗澡的鲸鱼 阅读(27) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train HDFS项目实战 需求分析 使用HDFS Java API 才完成HDFS文件系统上的额文件的词频统计 例子 /test/1.txt ==> ' hello world' /test/2.txt ==> ' hell 阅读全文
posted @ 2020-09-10 23:41 不洗澡的鲸鱼 阅读(34) 评论(0) 推荐(0) 编辑
摘要:源码见:https://github.com/hiszm/hadoop-train HDFS API编程 开发环境搭建 porn.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/PO 阅读全文
posted @ 2020-09-10 23:40 不洗澡的鲸鱼 阅读(27) 评论(1) 推荐(0) 编辑