11 2016 档案

摘要:注 : 待测试 一、准备两三台linux机器,最好是hadoop集群环境 机器A:10.0.0.2 机器B:10.0.0.3 机器C:10.0.0.4 二、个机器安装信息 机器A安装mysql(用于存储元数据信息)与Hive(用于开启hiveserver) 机器B可是作为mysql的主备 机器C作为 阅读全文
posted @ 2016-11-25 21:46 eRrsr 阅读(985) 评论(0) 推荐(0)
摘要:组件 阅读全文
posted @ 2016-11-25 21:31 eRrsr 阅读(536) 评论(0) 推荐(0)
摘要:HDFS文件格式 数据存储的方式 常见的压缩技术 阅读全文
posted @ 2016-11-24 16:47 eRrsr 阅读(4373) 评论(0) 推荐(0)
摘要:Oozie 官方示例 自定义实现workcount的workflow 自定义shell的workflow 复杂DAG图设计(其实也就是顺序,并发执行多个job) coordinator的编写 阅读全文
posted @ 2016-11-24 13:16 eRrsr 阅读(782) 评论(0) 推荐(0)
摘要:Oozie 任务调度框架(基于工作流) 任务调度框架 Oozie三大功能 Oozie的架构 Oozie安装部署 阅读全文
posted @ 2016-11-24 12:48 eRrsr 阅读(588) 评论(0) 推荐(0)
摘要:企业中的日志存放_1 企业中的日志存放_2 企业中常用架构 Flume多sink 阅读全文
posted @ 2016-11-24 12:40 eRrsr 阅读(741) 评论(0) 推荐(0)
摘要:在HDFS的文件默认生成文件大小1K,如何设置文件大小和数量 使用Flume是为了将最新的数据或文件上传到HDFS上,那如果遇到分区表该如何解决 Flume上传文件默认是以FlumeData开头,如何更改开头信息 企业中多台Flume如何解决磁盘IO问题 如何解决不同操作系统下Flume 阅读全文
posted @ 2016-11-24 12:24 eRrsr 阅读(1352) 评论(0) 推荐(0)
摘要:案例一: source:hive.log channel: memory sink: logger输出 案例二:source:hive.log channel: file sink: logger输出 案例三:source:hive.log channel: mem sink: hdfs 阅读全文
posted @ 2016-11-24 12:12 eRrsr 阅读(325) 评论(0) 推荐(0)
摘要:企业架构 概念: 三大功能 collecting(收集),aggregating(聚合),moving(传输) 特点: on streaming data flows(基于流式的数据) Flume-ng只有一个角色节点: agent的角色,agent有source、channel、sink组成 Fl 阅读全文
posted @ 2016-11-24 12:07 eRrsr 阅读(332) 评论(0) 推荐(0)
摘要:一、需求分析二、分析指标 PV UV 登录人数 游客人数 平均访问时长 二跳率 三、实现 四、结果: 阅读全文
posted @ 2016-11-24 11:53 eRrsr 阅读(434) 评论(0) 推荐(0)
摘要:UDTF: 一进多出 简单示例,将一列数据分成两列输出,name--> name,name+email 测试 阅读全文
posted @ 2016-11-24 11:23 eRrsr 阅读(843) 评论(0) 推荐(0)
摘要:UDAF: 多进一出 简单示例,重写SUM函数 测试 阅读全文
posted @ 2016-11-24 11:17 eRrsr 阅读(603) 评论(0) 推荐(0)
摘要:UDF: 一进一出 简单示例,去除某一列双引号 阅读全文
posted @ 2016-11-24 11:02 eRrsr 阅读(543) 评论(0) 推荐(0)
摘要:一、需求分析 二、数据分析 三、实施 四、结果展示 五、logclean.jar(过滤日志字段:日期转换,去除双引号,过去根url) 六、完整shell,注意准备logclean.jar(用于日志过滤MR程序),与"昨日"的日志文件和文件位置 阅读全文
posted @ 2016-11-24 10:53 eRrsr 阅读(2750) 评论(0) 推荐(0)
摘要:Hive中三种join 数据倾斜 操作导致 原因 表现 解决方案 转自: http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html 阅读全文
posted @ 2016-11-16 17:08 eRrsr 阅读(1162) 评论(0) 推荐(0)
摘要:错误如图 检查Hadoop native 经过: 我再次重新解压cdh版hadoop源码包并编译,将native库重新导入一边一遍,可以了 估计是我上一次编译有地方有问题,没注意到,以此警戒 阅读全文
posted @ 2016-11-12 18:47 eRrsr 阅读(873) 评论(0) 推荐(0)
摘要:编译cdh版hadoop2.5.0出现的问题 系统: CentOs66 64位 JDK:1.7 Maven: 3.0.5 Protobuf: libprotoc 2.5.0 编译命令: mvn package -DskipTests -Pdist,native 编译失败 解决办法 结果 阅读全文
posted @ 2016-11-12 18:37 eRrsr 阅读(11118) 评论(5) 推荐(0)
摘要:回顾: hive 安装部署 Hive 架构 Hive 创建表几种方式,分别是什么 表的类型 分析函数和窗口函数(重点) Hive中的case when then 数据导入Hive(重点) Hive 数据导出(重点) Hive export与import(相关地址只能是hdfsPath) Hive H 阅读全文
posted @ 2016-11-10 17:21 eRrsr 阅读(782) 评论(0) 推荐(0)
摘要:第一步: 需求分析 第二步: 实施步骤 预期结果 第三步: 实施 阅读全文
posted @ 2016-11-10 17:04 eRrsr 阅读(5007) 评论(0) 推荐(0)
摘要:前言: 搭建环境,这里使用cdh版hadoop+hive+sqoop+mysql 一、准备数据 二、使用sqoop将mysql中的这张表导入到hdfs上 三、使用sqoop将mysql中的这张表导入到hive 五、从hdfs或hive导出数据到mysql表 六、sqoop --option-file 阅读全文
posted @ 2016-11-10 16:22 eRrsr 阅读(1076) 评论(0) 推荐(0)
摘要:一、基本作用 二、简单配置 三、简单使用 阅读全文
posted @ 2016-11-10 15:06 eRrsr 阅读(670) 评论(0) 推荐(0)
摘要:以前以为版本不同,遇到的问题就不同,后来发现,无论是新版本,还是老版本,遇到的问题大部分都是相同的。下面解决问题的方法仅供借鉴 1.拒绝连接的错误表现是什么?2.表不存在该如何解决?3.null字段填充符该如何指定?环境hive 版本hive-0.11.0sqoop 版本 sqoop-1.4.4.b 阅读全文
posted @ 2016-11-09 12:13 eRrsr 阅读(877) 评论(0) 推荐(0)
摘要:1、查看mysql编码(默认latin1) 2、临时修改编码(重启后失效) 3、永久设置编码(修改配置文件,重启Mysqld服务) 结果: 4、创建MySql数据库和表并设置编码 阅读全文
posted @ 2016-11-08 19:22 eRrsr 阅读(9875) 评论(0) 推荐(0)
摘要:1、卸载原始mysql-lib sudo rpm -e --nodeps mysql-libs-xx 2、yum安装mysql-server sudo yum -y install mysql -server ps:注意联网状态,和yum源/etc/yum.repos.d/xxx 更新软件 sudo 阅读全文
posted @ 2016-11-03 09:23 eRrsr 阅读(312) 评论(0) 推荐(0)