hadoop - 随笔分类 - 寅狗

sqoop

摘要：sqoop：数据迁移工具实际上就是一个mapreduce程序，可以将关系型数据库导入到hdoop存储系统中，也可以将hadoop存储系统中的数据导出到关系型数据库中阅读全文

posted @ 2019-08-13 16:43 寅狗阅读(119) 评论(0) 推荐(0)

flume

摘要：flume数据采集各种各样的数据源--》读数据，缓存数据，写数据--各种各样的目标存储系统缓存数据：内存，本地磁盘文件读数据：任何数据都封装成event对象；组件接口（source），根据各种数据源写source实现类 event：head{描述信息}，body{数据} 写数据：组件接口（si 阅读全文

posted @ 2019-08-13 16:38 寅狗阅读(126) 评论(0) 推荐(0)

hbase

摘要：hbase简单来说就是一个nosql数据库，非结构化数据库，Hbase的表数据存储在HDFS文件系统中，hbase具备如下特性：存储容量可以线性扩展；数据存储的安全性可靠性极高！能实时的做增删改查文件系统：存储数据 l Hbase的表模型与关系型数据库的表模型不同： l Hbase的表没有固定的阅读全文

posted @ 2019-08-13 16:20 寅狗阅读(155) 评论(0) 推荐(0)

hive

摘要：hive:基于hadoop的一个数据仓库工具（离线），可以将结构化的数据文件映射成为一张数据库表，并提供sql查询功能 hive里面的表的字段对应文件里的一些数据字段，解析sql语法，组装成一个mapreduce job到yarn运行，在到hdfs里面查找会sql即可阅读全文

posted @ 2019-08-13 16:15 寅狗阅读(138) 评论(0) 推荐(0)

elasticsearch

摘要：elasticsearch支持多条件查询，也支持聚合查询，是基于lucence的搜索服务器，提供数搜索，存储，分析 beats:轻量型数据采集器 kibana：数据可视化管理工具 logstash：数据收集管理工具 x-pack:管理集群，web界面（收费）阅读全文

posted @ 2019-08-02 09:46 寅狗阅读(106) 评论(0) 推荐(0)

踩过的坑

摘要：1.hbase开启后regionserver自动关闭，节点与master上的时间不一致，差的太远。解决：配时间同步器，或者修改虚拟机上的时间：date -s 'xxxx-xx-xx xx:xx:xx' hwclock -w(将时间写入虚拟机的主板，不然下次启动时间又会还原) 2.vi模式下查找关键阅读全文

posted @ 2019-07-30 16:10 寅狗阅读(313) 评论(0) 推荐(0)

docker

摘要：阅读全文

posted @ 2019-07-26 15:11 寅狗阅读(103) 评论(0) 推荐(0)

zookeeper

摘要：zookeeper:基础组件。功能：1.可以为客户端管理少量数据。2.可以为客户端监听指定数据节点的状态，并在数据节点发生变化时通知客户端服务器上下线的动态感知上传安装包，解压修改conf/zoo.cfg # The number of milliseconds of each tick ti 阅读全文

posted @ 2019-07-23 08:54 寅狗阅读(178) 评论(0) 推荐(0)

mapreduce与yarn

摘要：mapreduce程序应该是在很多机器上并行启动，而且先执行map task，当众多的maptask都处理完自己的数据后，还需要启动众多的reduce task，这个过程如果用用户自己手动调度不太现实，需要一个自动化的调度平台——hadoop中就为运行mapreduce之类的分布式运算程序开发了一个阅读全文

posted @ 2019-07-17 10:10 寅狗阅读(446) 评论(0) 推荐(0)

元数据管理

摘要：1、什么是元数据？ hdfs的目录结构及每一个文件的块信息（块的id，块的副本数量，块的存放位置<datanode>） 2、元数据由谁负责管理？ namenode 3、namenode把元数据记录在哪里？ namenode的实时的完整的元数据存储在内存中； namenode还会在磁盘中（dfs.na 阅读全文

posted @ 2019-07-17 09:41 寅狗阅读(719) 评论(0) 推荐(0)

HDFS客户端操作

摘要：客户端的理解 hdfs的客户端有多种形式： 1、网页形式 2、命令行形式 3、客户端在哪里运行，没有约束，只要运行客户端的机器能够跟hdfs集群联网文件的切块大小和存储的副本数量，都是由客户端决定！所谓的由客户端决定，是通过配置参数来定的 hdfs的客户端会读以下两个参数，来决定切块大小、副本数阅读全文

posted @ 2019-07-09 08:54 寅狗阅读(295) 评论(0) 推荐(0)

搭建HDFS集群

摘要：hdfs集群组成结构：安装hdfs集群的具体步骤： 1、学习阶段，用虚拟机即可！先准备4台虚拟机：1个namenode节点 + 3 个datanode 节点 2、修改各台机器的主机名和ip地址主机名：hdp-01 对应的ip地址：192.168.33.61 主机名：hdp-02 对应的ip地址阅读全文

posted @ 2019-07-09 08:52 寅狗阅读(662) 评论(0) 推荐(0)

寅狗

随笔分类 - hadoop

公告