打赏
上一页 1 2 3 4 5 6 7 8 9 10 ··· 22 下一页
摘要: 项目的数据分析过程在hadoop集群上实现,主要应用hive数据仓库工具,因此,采集并经过预处理后的数据,需 要加载到hive数据仓库中,以进行后续的挖掘分析。 ETL:用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程 6.1创建原始数 阅读全文
posted @ 2018-07-19 10:41 QueryMarsBo 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 注:采用星型模型 5.1 事实表 原始数据表:t_origin_weblog valid string 是否有效 remote_addr string 访客ip remote_user string 访客用户信息 time_local string 请求时间 request string 请求url 阅读全文
posted @ 2018-07-19 08:54 QueryMarsBo 阅读(586) 评论(0) 推荐(0) 编辑
摘要: 4 模块开发—数据预处理 4.1 主要目的: 过滤“不合规”数据 格式转换和规整 根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据 4.2 实现方式: 开发一个MapReduce程序WeblogPreProcess来实现逻辑; 运行mr对数据进行预处理:hadoop jar 阅读全文
posted @ 2018-07-18 15:24 QueryMarsBo 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 3 模块开发——数据采集 3.1 需求 数据采集的需求广义上来说分为两大部分。 1)是在页面采集用户的访问行为,具体开发工作: 1、开发页面埋点js,采集用户访问行为 2、后台接受页面js请求记录日志 此部分工作也可以归属为“数据源”,其开发工作通常由web开发团队负责 2)是从web服务器上汇聚日 阅读全文
posted @ 2018-07-18 15:22 QueryMarsBo 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 1.Sqoop的数据导出 将数据从HDFS导出到RDBMS数据库,导出前,目标表必须存在于目标数据库中 默认操作是将文件中的数据使用INSERT语句插入到表中 更新模式下,是生成UPDATE语句更新表数据 2.Sqoop的Export语法:$ sqoop export (generic-args) 阅读全文
posted @ 2018-07-18 07:30 QueryMarsBo 阅读(438) 评论(0) 推荐(0) 编辑
摘要: 3.Sqoop的数据导入 “导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文 本数据(或者Avro、sequence文件等二进制数据) 3.1语法 下面的语法用于将数据导入HDFS:$ sqoop import (generic-args) 阅读全文
posted @ 2018-07-17 17:03 QueryMarsBo 阅读(860) 评论(0) 推荐(0) 编辑
摘要: 3. sqoop数据迁移 3.1 概述 sqoop是apache旗下一款“Hadoop体系和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库; 3 阅读全文
posted @ 2018-07-17 15:05 QueryMarsBo 阅读(216) 评论(0) 推荐(0) 编辑
摘要: HIVE脚本任务 hadoop fs -mkdir -p /aztest/hiveinput hadoop fs -put az.data /aztest/hiveinput/ l 创建job描述文件和hive脚本 Hive脚本: test.sql Job描述文件:hivef.job 2、将所有jo 阅读全文
posted @ 2018-07-16 18:17 QueryMarsBo 阅读(207) 评论(0) 推荐(0) 编辑
摘要: MAPREDUCE任务 Mr任务依然可以使用command的job类型来执行 1、创建job描述文件,及mr程序jar包(示例中直接使用hadoop自带的example jar) 2、将所有job资源文件打到一个zip包中 3、在azkaban的web管理界面创建工程并上传zip包 4、启动job, 阅读全文
posted @ 2018-07-16 17:45 QueryMarsBo 阅读(155) 评论(0) 推荐(0) 编辑
摘要: HDFS操作任务 1、创建job描述文件 2、将job资源文件打包成zip文件 3、通过Azkaban的web管理平台创建project并上传job压缩包 4、启动执行该job 阅读全文
posted @ 2018-07-16 17:31 QueryMarsBo 阅读(134) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 22 下一页