大数据之路 - 随笔分类 - Xiaohu_BigData

sqoop1.4.7完全支持Hadoop3.x, Hive3.x Hbase2.x

摘要：已经修改好保存至云盘自己下载花了时间的，记得关注我。。。链接：https://pan.xunlei.com/s/VNe6P6Tm1A9Q-RG5GByN08rdA1# 提取码：5nke 复制这段内容后打开手机迅雷App，查看更方便下载解压直接用，里面的内容已经改好但是需要注意的是conf 阅读全文

posted @ 2023-09-12 11:28 Xiaohu_BigData 阅读(1171) 评论(3) 推荐(0)

CentOS7搭建CDH5.15.0集群

摘要：CentOS7搭建CDH5.15.0集群一、节点说明节点 Server/Agent Memory master Server & agent 4G node1 agent 2G node2 agent 2G 二、安装环境准备 1、基本环境构建 1.1 网络配置和设置主机名 1.1 配置静态IP 阅读全文

posted @ 2020-09-21 10:46 Xiaohu_BigData 阅读(640) 评论(0) 推荐(0)

大量小文件不适合存储于HDFS的原因

摘要：1、小文件过多，会过多占用namenode的内存，并浪费block。 - 文件的元数据（包括文件被分成了哪些blocks，每个block存储在哪些服务器的哪个block块上），都是存储在namenode上的。 HDFS的每个文件、目录、数据块占用150B，因此300M内存情况下，只能存储不超过300 阅读全文

posted @ 2020-05-27 18:18 Xiaohu_BigData 阅读(1527) 评论(0) 推荐(0)

大数据之路Week10_day04 (Hbase的二级索引，二级索引的本质就是建立各列值与行键之间的映射关系）

摘要：二级索引的本质就是建立各列值与行键之间的映射关系 HBASE是在hadoop之上构建非关系型，面向列存储的开源分布式结构化数据存储系统。 Hbase的局限性： HBase本身只提供基于行键和全表扫描的查询，而行键索引单一，对于多维度的查询困难。所以我们引进一个二级索引的概念常见的二级索引： HB 阅读全文

posted @ 2020-01-09 17:46 Xiaohu_BigData 阅读(353) 评论(0) 推荐(0)

大数据之路Week10_day01 (练习：通过设计rowkey来实现查询需求）

摘要：1、准备数据链接：https://pan.baidu.com/s/1fRECXp0oWM1xgxc0uoniAA 提取码：4k43 2、需求如下（1）查询出10条某个人的最近出现的位置信息（2）查询出某个人在某一天在某个城市的所有位置信息 3、设计rowkey 手机号_（某一个大值 - 进入位阅读全文

posted @ 2020-01-08 21:56 Xiaohu_BigData 阅读(286) 评论(0) 推荐(0)

大数据之路Week10_day01 (通过直接创建Hfile文件的方式往Hbase中插入数据）

摘要：package com.wyh.parctise; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfigura 阅读全文

posted @ 2020-01-08 21:41 Xiaohu_BigData 阅读(397) 评论(0) 推荐(0)

大数据之路Week10_day01 (Hbase总结 II）

摘要：Hbase是数据库特点： 1.面向列：Hbase是面向列的存储和权限控制，并支持独立索引。列式存储，其数据在表中是按照某列存储的，这样在查询只需要少数几个字段时，能大大减少读取的数据量。 2.多版本：Hbase每一个列的存储有多个Version（这个版本是针对列簇来说的）。 3.稀疏性：为空的列不阅读全文

posted @ 2020-01-08 16:34 Xiaohu_BigData 阅读(291) 评论(0) 推荐(0)

Week09_day05(Java API操作Hbase)

摘要：package com.wyh.HbaseAPI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; i 阅读全文

posted @ 2020-01-03 23:42 Xiaohu_BigData 阅读(229) 评论(0) 推荐(0)

Week09_day05(Hbase的基本使用)

摘要：使用HBase 和 Hbase使用帮助 1）、进入HBase #使用命令进入HBase Shell $ hbase shell The HBase shell is the (J)Ruby IRB with the above HBase-specific commands added. For m 阅读全文

posted @ 2020-01-03 22:18 Xiaohu_BigData 阅读(350) 评论(0) 推荐(0)

Zookeeper、Hadoop、Hbase的启动顺序以及关闭顺序

摘要：启动顺序 Hadoop及hbase集群启动顺序 zookeepeer -> hadoop -> hbase 停止顺序 Hadoop及hbase集群关闭顺序 hbase -> hadoop -> zookeepeer 启动和停止ZK /home/zookeeper-3.4.6/bin/zkServer 阅读全文

posted @ 2020-01-03 22:14 Xiaohu_BigData 阅读(3407) 评论(0) 推荐(1)

Week09_day05(Hbase的安装搭建)

摘要：搭建完全分布式集群 HBase集群建立在hadoop集群基础之上，所以在搭建HBase集群之前需要把Hadoop集群搭建起来，并且要考虑二者的兼容性.现在就以5台机器为例，搭建一个简单的集群. 软件版本：hbase-0.98.12.1-hadoop2-bin.tar.gz 3台机器IP：192.16 阅读全文

posted @ 2020-01-03 22:11 Xiaohu_BigData 阅读(313) 评论(0) 推荐(0)

Week09_day05(Hbase的介绍和工作原理)

摘要：HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于B 阅读全文

posted @ 2020-01-03 21:55 Xiaohu_BigData 阅读(261) 评论(0) 推荐(0)

Week08_day07（DataX从mysql上读取数据传输到HDFS上）

摘要：简介DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件的模式，目前已开源，代码托管在github。 Data 阅读全文

posted @ 2019-12-29 21:52 Xiaohu_BigData 阅读(860) 评论(0) 推荐(0)

Sqoop增量导入注意事项 incremental lastmodified与target-dir连用报错 Imported Failed: Wrong FS

摘要：这里引用一篇博客写的很好 https://blog.csdn.net/C_time/article/details/101109071 阅读全文

posted @ 2019-12-29 10:38 Xiaohu_BigData 阅读(327) 评论(0) 推荐(0)

大数据之路Week08_day06 (Zookeeper搭建）

摘要：Zookeeper集群搭建在本文中Zookeeper节点个数（奇数）为3个。Zookeeper默认对外提供服务的端口号2181 。Zookeeper集群内部3个节点之间通信默认使用2888:3888 192.168.129.101 192.168.129.102 192.168.129.103 下阅读全文

posted @ 2019-12-28 15:34 Xiaohu_BigData 阅读(289) 评论(0) 推荐(0)

大数据之路Week08_day06 (Zookeeper初识）

摘要：让我们来回顾一下我们在学习Hadoop中的HDFS的时候，肯定见过下面这样的两幅图：这副图代表着什么呢？它介绍的是Hadoop集群的高可靠，也就是前面提过的HA，仔细观察一下这副图，我们发现有两个NameNode，只不过一个是活跃的状态，一个是热备状态，什么是热备状态？比如说在之前的Hadoop 阅读全文

posted @ 2019-12-28 15:23 Xiaohu_BigData 阅读(180) 评论(0) 推荐(0)

阿里巴巴开源ETL(数据的抽取、转换、加载)工具-----DataX

摘要：一个比Sqoop好用的数据传输工具下载maven的时候，加一个 -P让下载的压缩包到指定目录而要让档案自动储存到指令的目录下，则需要借用-P这个参数wget -p 目录网址wget -P /root/download 网址解压的时候：其中用到了tar这个命令，发现在Qt中的file取得路径阅读全文

posted @ 2019-12-27 20:40 Xiaohu_BigData 阅读(2421) 评论(0) 推荐(0)

大数据之路Week08_day03 (Hive的动态分区和分桶）

摘要：一、动态分区先来说说我对动态分区的理解与一些感受吧。由于我们通过hive去查询数据的时候，实际还是查询HDFS上的数据，一旦一个目录下有很多文件呢？而我们去查找的数据也没有那么多，全盘扫描就会浪费很多时间和资源。为了避免全盘扫描和提高查询效率，引入了分区的概念。分区的展现形式，就是在HDFS 阅读全文

posted @ 2019-12-25 20:29 Xiaohu_BigData 阅读(433) 评论(0) 推荐(0)

大数据之路Week08_day03 (Hive优化）

摘要：Hive优化（下面的红色标记是十分重要的，大部分情况是需要开启的）优化1：hive的抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。Set hive.fetch.task.conversio 阅读全文

posted @ 2019-12-25 16:13 Xiaohu_BigData 阅读(286) 评论(0) 推荐(0)

java.lang.IllegalStateException: File name has been re-used with different files. (flume报错）

摘要：报错日志： java.lang.IllegalStateException: File name has been re-used with different files. Spooling assumptions violated for /usr/local/data/flumedata/wo 阅读全文

posted @ 2019-12-24 22:04 Xiaohu_BigData 阅读(1117) 评论(0) 推荐(0)

Xiaohu_BigData

随笔分类 - 大数据之路

公告