摘要: HDFS文件格式 数据存储的方式 常见的压缩技术 阅读全文
posted @ 2016-11-24 16:47 eRrsr 阅读(4359) 评论(0) 推荐(0)
摘要: Oozie 官方示例 自定义实现workcount的workflow 自定义shell的workflow 复杂DAG图设计(其实也就是顺序,并发执行多个job) coordinator的编写 阅读全文
posted @ 2016-11-24 13:16 eRrsr 阅读(776) 评论(0) 推荐(0)
摘要: Oozie 任务调度框架(基于工作流) 任务调度框架 Oozie三大功能 Oozie的架构 Oozie安装部署 阅读全文
posted @ 2016-11-24 12:48 eRrsr 阅读(578) 评论(0) 推荐(0)
摘要: 企业中的日志存放_1 企业中的日志存放_2 企业中常用架构 Flume多sink 阅读全文
posted @ 2016-11-24 12:40 eRrsr 阅读(736) 评论(0) 推荐(0)
摘要: 在HDFS的文件默认生成文件大小1K,如何设置文件大小和数量 使用Flume是为了将最新的数据或文件上传到HDFS上,那如果遇到分区表该如何解决 Flume上传文件默认是以FlumeData开头,如何更改开头信息 企业中多台Flume如何解决磁盘IO问题 如何解决不同操作系统下Flume 阅读全文
posted @ 2016-11-24 12:24 eRrsr 阅读(1349) 评论(0) 推荐(0)
摘要: 案例一: source:hive.log channel: memory sink: logger输出 案例二:source:hive.log channel: file sink: logger输出 案例三:source:hive.log channel: mem sink: hdfs 阅读全文
posted @ 2016-11-24 12:12 eRrsr 阅读(321) 评论(0) 推荐(0)
摘要: 企业架构 概念: 三大功能 collecting(收集),aggregating(聚合),moving(传输) 特点: on streaming data flows(基于流式的数据) Flume-ng只有一个角色节点: agent的角色,agent有source、channel、sink组成 Fl 阅读全文
posted @ 2016-11-24 12:07 eRrsr 阅读(330) 评论(0) 推荐(0)
摘要: 一、需求分析二、分析指标 PV UV 登录人数 游客人数 平均访问时长 二跳率 三、实现 四、结果: 阅读全文
posted @ 2016-11-24 11:53 eRrsr 阅读(422) 评论(0) 推荐(0)
摘要: UDTF: 一进多出 简单示例,将一列数据分成两列输出,name--> name,name+email 测试 阅读全文
posted @ 2016-11-24 11:23 eRrsr 阅读(836) 评论(0) 推荐(0)
摘要: UDAF: 多进一出 简单示例,重写SUM函数 测试 阅读全文
posted @ 2016-11-24 11:17 eRrsr 阅读(600) 评论(0) 推荐(0)
摘要: UDF: 一进一出 简单示例,去除某一列双引号 阅读全文
posted @ 2016-11-24 11:02 eRrsr 阅读(536) 评论(0) 推荐(0)
摘要: 一、需求分析 二、数据分析 三、实施 四、结果展示 五、logclean.jar(过滤日志字段:日期转换,去除双引号,过去根url) 六、完整shell,注意准备logclean.jar(用于日志过滤MR程序),与"昨日"的日志文件和文件位置 阅读全文
posted @ 2016-11-24 10:53 eRrsr 阅读(2737) 评论(0) 推荐(0)