随笔分类 -  大数据

摘要:是由于Kafka server.properties中的advertised.host.name 属性没有配置。这个属性代表客户端访问Kafka的地址。如果没配置默认是主机名。 阅读全文
posted @ 2018-01-18 17:39 再也伤不起 阅读(2777) 评论(0) 推荐(0) 编辑
摘要:1:创建子节点的时候 没有根节点 org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for ... 解决方案:创建父节点即可 阅读全文
posted @ 2018-01-16 14:49 再也伤不起 阅读(338) 评论(0) 推荐(0) 编辑
摘要:1:创建目录 #数据目录dataDir=/opt/hadoop/zookeeper-3.3.5-cdh3u5/data#日志目录dataLogDir=/opt/hadoop/zookeeper-3.3.5-cdh3u5/logs 2:修改/opt/hadoop/zookeeper-3.3.5-cdh 阅读全文
posted @ 2018-01-15 11:01 再也伤不起 阅读(224) 评论(0) 推荐(0) 编辑
摘要:1:修改本地linux时区 查看时区 - 号代表西 + 号 代表东 北京时间是东八区 设置时区的配置文件所在位置 选择以亚洲的上海 的时区为基址 删除本地配置文件 创建一个硬连接 时区变成东八区了 设置时间 2:设置oozie的时区 在oozie-site.xml修改 oozie默认使用UTC 等同 阅读全文
posted @ 2017-12-20 20:34 再也伤不起 阅读(2710) 评论(0) 推荐(0) 编辑
摘要:1:拷贝模板 2:拷贝hive用的jar包 方式一: 3:编辑job.properties 4.编辑workflow.xml 注意 在这里如果要指定sqoop导出数据的格式 要用双引号 单引号没效果的 而且只识别单字符 不识别多字符 这里的$$$ 导出的数据格式 是 $ 5:上传到hdfs 6:启动 阅读全文
posted @ 2017-12-19 11:50 再也伤不起 阅读(1055) 评论(0) 推荐(0) 编辑
摘要:1.把oozie中自带的hive案例拷贝到 测试目录 /opt/cdh-5.3.6/oozie-4.0.0-cdh5.3.6/oozie-apps下 2. 编辑 job.properties 3.拷贝hive的配置文件hive-site.xm 4.拷贝mysql的jar包 5.编辑workflow. 阅读全文
posted @ 2017-12-18 20:29 再也伤不起 阅读(3896) 评论(1) 推荐(0) 编辑
摘要:准备工作 拷贝原来的模板 配置文件修改 workflow.xml : job.properties : 把自己写的MapReduce的jar 放上去 把改好的文件放入到hdfs 准备测试数据 在hdfs创建输入目录 并把刚创建的文件上传 运行oozie 查看输出结果 原文件 统计后的文件 http: 阅读全文
posted @ 2017-12-15 16:35 再也伤不起 阅读(522) 评论(0) 推荐(0) 编辑
摘要:1. 解压 tar -zxvf oozie-4.0.0-cdh5.3.6.tar.gz 2.配置hadoop的集群,添加一个代理用户(给oozie运行mapreduce的权限) 在hadoop的core-site.xml配置文件中添加 (要在hadoop启动之前添加) root 可以改成 当前操作系 阅读全文
posted @ 2017-12-14 17:40 再也伤不起 阅读(2254) 评论(0) 推荐(0) 编辑
摘要:1.编辑一个配置文件 flume-app.conf 拷贝至fulme的安装目录的conf下 创建 spoollogs 文件夹 准备一些数据 测试 .log结尾的文件是否被扫描到 执行命令 查看文件 .log结尾的文件果然没有被读取到 已经读取的文件也被加上后缀了 在hdfs上自动以当天时间命名生成了 阅读全文
posted @ 2017-12-14 16:28 再也伤不起 阅读(4762) 评论(0) 推荐(0) 编辑
摘要:1 package com.liveyc.common.utils; 2 3 import java.util.List; 4 5 import org.apache.hadoop.hbase.util.Bytes; 6 import com.liveyc.datarecover.utils.FileToHbase; 7 public class NewTable { 8 ... 阅读全文
posted @ 2017-12-12 16:15 再也伤不起 阅读(2127) 评论(0) 推荐(0) 编辑
摘要:1:创建shell脚本 编辑文件 特地将执行map的个数设置为变量 测试 可以java代码传参数 同时也验证sqoop的 options 属性支持这种写法 2:创建 sqoop-import-mysql.txt 文件并编辑 hive数据存在hdfs位置 3:开始写java后台代码 目前只支持 win 阅读全文
posted @ 2017-12-07 16:36 再也伤不起 阅读(2077) 评论(3) 推荐(0) 编辑
摘要:1:先将mysql一张表的数据用sqoop导入到hdfs中 准备一张表 需求 将 bbs_product 表中的前100条数据导 导出来 只要id brand_id和 name 这3个字段 数据存在 hdfs 目录 /user/xuyou/sqoop/imp_bbs_product_sannpy_ 阅读全文
posted @ 2017-12-07 14:17 再也伤不起 阅读(83519) 评论(0) 推荐(4) 编辑
摘要:在使用sqoop 将数据库表中数据导入至hdfs时 配置启用压缩 hadoop 的命令 检查本地库支持哪些 bin/hadoop checknative 需要配置native 要编译版本 删除hadoop安装目录 lib 下的native文件夹 将解压好的native文件 拷贝到hadoop lib 阅读全文
posted @ 2017-12-07 11:39 再也伤不起 阅读(1804) 评论(0) 推荐(0) 编辑
摘要:版本 :hive-0.13.1-cdh5.3.6.tar.gz 1:解压 然后 进到 conf 目录 修改 sqoop-env.sh 2:如果使用mysql 数据库 要将 mysql驱动包拷贝到 sqoop安装目录的lib文件夹下 阅读全文
posted @ 2017-12-06 16:14 再也伤不起 阅读(201) 评论(0) 推荐(0) 编辑
摘要:参数详细资料 观看这个博客 http://shiyanjun.cn/archives/624.html Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下 阅读全文
posted @ 2017-12-06 11:51 再也伤不起 阅读(27446) 评论(3) 推荐(3) 编辑
摘要:今天按照网上教程搭建了下 cdh 单机版的 hive 将相关配置记录下来 以便以后方便翻阅 版本 hive-0.13.1-cdh5.3.6.tar.gz 1. 直接解压 然后将 mysql驱动包 拷贝到 hive 的lib目录下 2. 进入 conf 配置目录下 总共要修改3个文件 其中hive-s 阅读全文
posted @ 2017-12-06 11:08 再也伤不起 阅读(2000) 评论(0) 推荐(0) 编辑
摘要:公司最近在搞一个hbase删除数据,由于在建表的时候是通过region来对每日的数据进行存储的,所以要求在删除的时候直接通过删除region的来删除数据(最好的方案是只删除region中的数据,不把region删掉,但是百度了很久没找到只删除region中数据的解决方法,实在遗憾,最终也就通过删除region来删除数据了 这样的弊端是在hbase 中执行scan全表的时候 会报错,找不到某某re... 阅读全文
posted @ 2017-12-05 14:34 再也伤不起 阅读(4663) 评论(2) 推荐(0) 编辑