摘要: 一、需求分析二、分析指标 PV UV 登录人数 游客人数 平均访问时长 二跳率 三、实现 四、结果: 阅读全文
posted @ 2016-11-24 11:53 eRrsr 阅读(422) 评论(0) 推荐(0)
摘要: UDTF: 一进多出 简单示例,将一列数据分成两列输出,name--> name,name+email 测试 阅读全文
posted @ 2016-11-24 11:23 eRrsr 阅读(836) 评论(0) 推荐(0)
摘要: UDAF: 多进一出 简单示例,重写SUM函数 测试 阅读全文
posted @ 2016-11-24 11:17 eRrsr 阅读(600) 评论(0) 推荐(0)
摘要: UDF: 一进一出 简单示例,去除某一列双引号 阅读全文
posted @ 2016-11-24 11:02 eRrsr 阅读(536) 评论(0) 推荐(0)
摘要: 一、需求分析 二、数据分析 三、实施 四、结果展示 五、logclean.jar(过滤日志字段:日期转换,去除双引号,过去根url) 六、完整shell,注意准备logclean.jar(用于日志过滤MR程序),与"昨日"的日志文件和文件位置 阅读全文
posted @ 2016-11-24 10:53 eRrsr 阅读(2737) 评论(0) 推荐(0)
摘要: Hive中三种join 数据倾斜 操作导致 原因 表现 解决方案 转自: http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html 阅读全文
posted @ 2016-11-16 17:08 eRrsr 阅读(1155) 评论(0) 推荐(0)
摘要: 错误如图 检查Hadoop native 经过: 我再次重新解压cdh版hadoop源码包并编译,将native库重新导入一边一遍,可以了 估计是我上一次编译有地方有问题,没注意到,以此警戒 阅读全文
posted @ 2016-11-12 18:47 eRrsr 阅读(869) 评论(0) 推荐(0)
摘要: 编译cdh版hadoop2.5.0出现的问题 系统: CentOs66 64位 JDK:1.7 Maven: 3.0.5 Protobuf: libprotoc 2.5.0 编译命令: mvn package -DskipTests -Pdist,native 编译失败 解决办法 结果 阅读全文
posted @ 2016-11-12 18:37 eRrsr 阅读(11107) 评论(5) 推荐(0)
摘要: 回顾: hive 安装部署 Hive 架构 Hive 创建表几种方式,分别是什么 表的类型 分析函数和窗口函数(重点) Hive中的case when then 数据导入Hive(重点) Hive 数据导出(重点) Hive export与import(相关地址只能是hdfsPath) Hive H 阅读全文
posted @ 2016-11-10 17:21 eRrsr 阅读(777) 评论(0) 推荐(0)
摘要: 第一步: 需求分析 第二步: 实施步骤 预期结果 第三步: 实施 阅读全文
posted @ 2016-11-10 17:04 eRrsr 阅读(5003) 评论(0) 推荐(0)