摘要:
HDFS文件格式 数据存储的方式 常见的压缩技术 阅读全文
posted @ 2016-11-24 16:47
eRrsr
阅读(4359)
评论(0)
推荐(0)
摘要:
Oozie 官方示例 自定义实现workcount的workflow 自定义shell的workflow 复杂DAG图设计(其实也就是顺序,并发执行多个job) coordinator的编写 阅读全文
posted @ 2016-11-24 13:16
eRrsr
阅读(776)
评论(0)
推荐(0)
摘要:
Oozie 任务调度框架(基于工作流) 任务调度框架 Oozie三大功能 Oozie的架构 Oozie安装部署 阅读全文
posted @ 2016-11-24 12:48
eRrsr
阅读(578)
评论(0)
推荐(0)
摘要:
企业中的日志存放_1 企业中的日志存放_2 企业中常用架构 Flume多sink 阅读全文
posted @ 2016-11-24 12:40
eRrsr
阅读(736)
评论(0)
推荐(0)
摘要:
在HDFS的文件默认生成文件大小1K,如何设置文件大小和数量 使用Flume是为了将最新的数据或文件上传到HDFS上,那如果遇到分区表该如何解决 Flume上传文件默认是以FlumeData开头,如何更改开头信息 企业中多台Flume如何解决磁盘IO问题 如何解决不同操作系统下Flume 阅读全文
posted @ 2016-11-24 12:24
eRrsr
阅读(1349)
评论(0)
推荐(0)
摘要:
案例一: source:hive.log channel: memory sink: logger输出 案例二:source:hive.log channel: file sink: logger输出 案例三:source:hive.log channel: mem sink: hdfs 阅读全文
posted @ 2016-11-24 12:12
eRrsr
阅读(321)
评论(0)
推荐(0)
摘要:
企业架构 概念: 三大功能 collecting(收集),aggregating(聚合),moving(传输) 特点: on streaming data flows(基于流式的数据) Flume-ng只有一个角色节点: agent的角色,agent有source、channel、sink组成 Fl 阅读全文
posted @ 2016-11-24 12:07
eRrsr
阅读(330)
评论(0)
推荐(0)
摘要:
一、需求分析二、分析指标 PV UV 登录人数 游客人数 平均访问时长 二跳率 三、实现 四、结果: 阅读全文
posted @ 2016-11-24 11:53
eRrsr
阅读(422)
评论(0)
推荐(0)
摘要:
UDTF: 一进多出 简单示例,将一列数据分成两列输出,name--> name,name+email 测试 阅读全文
posted @ 2016-11-24 11:23
eRrsr
阅读(836)
评论(0)
推荐(0)
摘要:
UDAF: 多进一出 简单示例,重写SUM函数 测试 阅读全文
posted @ 2016-11-24 11:17
eRrsr
阅读(600)
评论(0)
推荐(0)
摘要:
UDF: 一进一出 简单示例,去除某一列双引号 阅读全文
posted @ 2016-11-24 11:02
eRrsr
阅读(536)
评论(0)
推荐(0)
摘要:
一、需求分析 二、数据分析 三、实施 四、结果展示 五、logclean.jar(过滤日志字段:日期转换,去除双引号,过去根url) 六、完整shell,注意准备logclean.jar(用于日志过滤MR程序),与"昨日"的日志文件和文件位置 阅读全文
posted @ 2016-11-24 10:53
eRrsr
阅读(2737)
评论(0)
推荐(0)