文章分类 -  大数据网络日志分析项目

摘要:【运营日志项目分析】(四)Sqoop导入MySQL 一、CDH添加Sqoop服务 CDH的话需要添加Sqoop工具服务 要求要选Sqoop1才可--因为1.99.7与1.4.6不兼容,且特征功能不完整,它并不打算用于生产部署。 这里我选择在cdh2上搭建 Sqoop只是一个工具,不需要启动/关闭 二 阅读全文

posted @ 2020-05-20 22:41 MissRong 阅读(549) 评论(0) 推荐(0) |

摘要:【运营日志项目分析】(三)Hive统计分析 一、建立分区表 建立外部表-通过Hive删不掉,所以采用外部表 hive>CREATE EXTERNAL TABLE techbbs(ip string, atime string, url string) PARTITIONED BY (logdate 阅读全文

posted @ 2020-05-20 22:14 MissRong 阅读(435) 评论(0) 推荐(0) |

摘要:[运营日志项目分析](二) 数据清洗过程- 前期准备 + 代码编写 + 运行效果 + 定时上传 一、前期准备 1.新建项目 新建项目,因为此项目需要引用CDH集群,为不是之前的Hadoop集群了,所用的依赖也不相同. 改Maven 2.pom.xml文件 如果要启用CHD集群的话需要对之前的pom. 阅读全文

posted @ 2020-05-20 21:32 MissRong 阅读(391) 评论(0) 推荐(0) |

摘要:[运营日志项目分析](一) 一、 数据情况 每行记录有5部分组成:访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量 二、 指标KPI 1.浏览PV (1)定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。 ( 阅读全文

posted @ 2020-05-20 20:32 MissRong 阅读(626) 评论(0) 推荐(0) |

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3