Xiaohu_BigData

2019年12月29日

摘要：简介DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件的模式，目前已开源，代码托管在github。 Data 阅读全文

posted @ 2019-12-29 21:52 Xiaohu_BigData 阅读(857) 评论(0) 推荐(0)

Sqoop增量导入注意事项 incremental lastmodified与target-dir连用报错 Imported Failed: Wrong FS

摘要：这里引用一篇博客写的很好 https://blog.csdn.net/C_time/article/details/101109071 阅读全文

posted @ 2019-12-29 10:38 Xiaohu_BigData 阅读(327) 评论(0) 推荐(0)

2019年12月28日

大数据之路Week08_day06 (Zookeeper搭建）

摘要： Zookeeper集群搭建在本文中Zookeeper节点个数（奇数）为3个。Zookeeper默认对外提供服务的端口号2181 。Zookeeper集群内部3个节点之间通信默认使用2888:3888 192.168.129.101 192.168.129.102 192.168.129.103 下阅读全文

posted @ 2019-12-28 15:34 Xiaohu_BigData 阅读(288) 评论(0) 推荐(0)

大数据之路Week08_day06 (Zookeeper初识）

摘要：让我们来回顾一下我们在学习Hadoop中的HDFS的时候，肯定见过下面这样的两幅图：这副图代表着什么呢？它介绍的是Hadoop集群的高可靠，也就是前面提过的HA，仔细观察一下这副图，我们发现有两个NameNode，只不过一个是活跃的状态，一个是热备状态，什么是热备状态？比如说在之前的Hadoop 阅读全文

posted @ 2019-12-28 15:23 Xiaohu_BigData 阅读(179) 评论(0) 推荐(0)

2019年12月27日

阿里巴巴开源ETL(数据的抽取、转换、加载)工具-----DataX

摘要：一个比Sqoop好用的数据传输工具下载maven的时候，加一个 -P让下载的压缩包到指定目录而要让档案自动储存到指令的目录下，则需要借用-P这个参数wget -p 目录网址wget -P /root/download 网址解压的时候：其中用到了tar这个命令，发现在Qt中的file取得路径阅读全文

posted @ 2019-12-27 20:40 Xiaohu_BigData 阅读(2417) 评论(0) 推荐(0)

2019年12月25日

大数据之路Week08_day03 (Hive的动态分区和分桶）

摘要：一、动态分区先来说说我对动态分区的理解与一些感受吧。由于我们通过hive去查询数据的时候，实际还是查询HDFS上的数据，一旦一个目录下有很多文件呢？而我们去查找的数据也没有那么多，全盘扫描就会浪费很多时间和资源。为了避免全盘扫描和提高查询效率，引入了分区的概念。分区的展现形式，就是在HDFS 阅读全文

posted @ 2019-12-25 20:29 Xiaohu_BigData 阅读(432) 评论(0) 推荐(0)

大数据之路Week08_day03 (Hive优化）

摘要： Hive优化（下面的红色标记是十分重要的，大部分情况是需要开启的）优化1：hive的抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。Set hive.fetch.task.conversio 阅读全文

posted @ 2019-12-25 16:13 Xiaohu_BigData 阅读(282) 评论(0) 推荐(0)

2019年12月24日

java.lang.IllegalStateException: File name has been re-used with different files. (flume报错）

摘要：报错日志： java.lang.IllegalStateException: File name has been re-used with different files. Spooling assumptions violated for /usr/local/data/flumedata/wo 阅读全文

posted @ 2019-12-24 22:04 Xiaohu_BigData 阅读(1115) 评论(0) 推荐(0)

大数据之路Week08_day02 (Flume的使用举例（从控制台输入数据，从本地打数据到HDFS，从java代码中进行捕获打入到HDFS，flume监控http source））

摘要：在使用之前，提供一个大致思想，使用Flume的过程是确定scource类型，channel类型和sink类型，编写conf文件并开启服务，在数据捕获端进行传入数据流入到目的地。实例一、从控制台打入数据，在控制台显示 1、确定scource类型，channel类型和sink类型确定的使用类型分别是阅读全文

posted @ 2019-12-24 21:59 Xiaohu_BigData 阅读(406) 评论(0) 推荐(0)

大数据之路Week08_day02 (Flume 三个组件Source, channel, sink）

摘要：在使用之前，先介绍组件Flume的特点和一些组件 Flume的优势： 1. Flume可以将应用产生的数据存储到任何集中存储器中，比如HDFS,HBase 2. 当收集数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，这时候收集的信息非常大，甚至超过了系统的写入数据能力，这时候，Flume 阅读全文

posted @ 2019-12-24 21:05 Xiaohu_BigData 阅读(767) 评论(0) 推荐(0)

公告