hadoop - 随笔分类 - linyouyi

HDFS（Hadoop Distributed File System）的组件架构概述

摘要：1.hadoop1.x和hadoop2.x区别 2.组件介绍 HDFS架构概述1)NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等.2)DataNode(dn): 在本地文件系统存储文件块数阅读全文

posted @ 2019-09-13 14:31 linyouyi 阅读(576) 评论(0) 推荐(0)

HBase的应用场景及特点

摘要：一、Hbase能做什么？1. 海量数据存储：上百亿行 x 上百万列并没有列的限制当表非常大的时候才能发挥这个作用，最多百万行的话，没有必要放入hbase中2. 准实时查询：百亿行 x 百万列，在百毫秒以内二、Hbase在实际场景中的应用：1. 交通方面：船舶GPS信息，全长江的船舶GPS信息，每天阅读全文

posted @ 2019-09-13 14:31 linyouyi 阅读(19071) 评论(0) 推荐(0)

flume的安装和使用

摘要：1.下载 2.解压 3.启动agent 使用名为flume-ng的shell脚本启动代理程序，该脚本位于Flume发行版的bin目录中。您需要在命令行上指定代理名称，config目录和配置文件： 4.一个简单的例子 http://flume.apache.org/FlumeUserGuide.htm 阅读全文

posted @ 2019-09-09 20:04 linyouyi 阅读(749) 评论(0) 推荐(0)

Flume详解

摘要：Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。它使用简单的可扩展数据模型，允许在线分析应用程序。 Apache Flume团队很高兴地宣布推出Flume 1.9. 阅读全文

posted @ 2019-09-09 20:03 linyouyi 阅读(364) 评论(0) 推荐(0)

hive的安装和使用

摘要：基础依赖环境： 1, jdk 已装2, hadoop 2.x 已装3, hive 2.3.64, mysql 5, mysql-connector-jar 1.下载 2.解压拷贝安装mysql用于存放元数据,把mysql_connector拷贝到lib目录,修改配置文件创建数据库,创建用户赋予权阅读全文

posted @ 2019-09-01 16:56 linyouyi 阅读(379) 评论(0) 推荐(0)

kafka集群安装和使用

摘要：kafka(1)kafka是一个分布式的消息缓存系统(2)kafka集群中的服务器都叫做broker(3)kafka有两类客户端,一个叫做producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用TCP协议连接(4)kafka中的消息可以通过topic 阅读全文

posted @ 2019-08-17 16:08 linyouyi 阅读(785) 评论(0) 推荐(0)

storm集群的安装

摘要：storm图解 storm的基本概念 Topologies:拓扑,也俗称一个任务 Spoults:拓扑的消息源 Bolts:拓扑的处理逻辑单元 tuple:消息元组,在Spoults和Bolts传递数据报的一种格式 Streams:流 Streams groupings:流的分组策略 Tasks:任阅读全文

posted @ 2019-08-12 22:05 linyouyi 阅读(321) 评论(0) 推荐(0)

大数据之hadoop小文件存档

摘要：hadoop小文件存档1.HDFS存档小文件弊端每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需的磁盘容量和数据块的大小无关。例如，一个1M的文件设置为128M的块存储，阅读全文

posted @ 2019-08-08 23:15 linyouyi 阅读(420) 评论(0) 推荐(0)

hadoop Datanode多目录配置

摘要：1. DataNode也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本2．具体配置如下阅读全文

posted @ 2019-08-06 15:02 linyouyi 阅读(2589) 评论(0) 推荐(0)

hadoop快照管理

摘要：快照相当于对目录做备份,并不会复制所有文件,而是记录文件的变化命令用法案例实操(1)开启/禁用制定目录的快照功能 (2)对目录创建快照通过web访问hdfs://hadoop01:50070/user/atguigu/input/.snapshot/s…..// 快照和源文(3)指定名称创建快照阅读全文

posted @ 2019-08-06 15:01 linyouyi 阅读(433) 评论(0) 推荐(0)

hadoop新增新数据节点和退役数据节点

摘要：新增数据节点 0. 需求随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。1. 环境准备（1）在hadoop03主机上再克隆一台hadoop04主机（2）修改IP地址和主机名称（3）删除原来HDFS文件系统留存的文件（阅读全文

posted @ 2019-08-05 11:18 linyouyi 阅读(507) 评论(0) 推荐(0)

hadoop集群时间同步

摘要：1.集群时间同步找一台机器,作为实践服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟同步一次时间.1.1步骤1.1.1时间服务器配置 1.1.2修改/etc/sysconfig/ntpd文件 1.1.3重新启动ntpd服务 1.1.4其他机器配置阅读全文

posted @ 2019-08-04 11:32 linyouyi 阅读(1208) 评论(0) 推荐(0)

随笔分类 - hadoop

公告