摘要: ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目 思路同我之前的博客的思路 https://www.cnblogs.com/symkmk123/p/10197467.html 但是数据是从web访问的数据 avro第一次过滤 观察数据的格式,我们主要分析第四个 阅读全文
posted @ 2018-12-29 19:20 symkmk123 阅读(3214) 评论(2) 推荐(1)
摘要: ETL项目1:大数据采集,清洗,处理:使用MapReduce进行离线数据分析完整项目 思路分析: 1.1 log日志生成 用curl模拟请求,nginx反向代理80端口来生成日志. 1.2 日志切割 1.3 上传日志到HDFS 1.4 错误重试 2.1 需求分析 进行nginx日志的ETL 要求对过 阅读全文
posted @ 2018-12-29 18:19 symkmk123 阅读(5954) 评论(0) 推荐(0)