随笔分类 - hadoop
摘要:1.hadoop1.x和hadoop2.x区别 2.组件介绍 HDFS架构概述1)NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等.2)DataNode(dn): 在本地文件系统存储文件块数
阅读全文
摘要:一、Hbase能做什么?1. 海量数据存储:上百亿行 x 上百万列并没有列的限制当表非常大的时候才能发挥这个作用, 最多百万行的话,没有必要放入hbase中2. 准实时查询:百亿行 x 百万列,在百毫秒以内二、Hbase在实际场景中的应用:1. 交通方面:船舶GPS信息,全长江的船舶GPS信息,每天
阅读全文
摘要:1.下载 2.解压 3.启动agent 使用名为flume-ng的shell脚本启动代理程序,该脚本位于Flume发行版的bin目录中。您需要在命令行上指定代理名称,config目录和配置文件: 4.一个简单的例子 http://flume.apache.org/FlumeUserGuide.htm
阅读全文
摘要:Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。它使用简单的可扩展数据模型,允许在线分析应用程序。 Apache Flume团队很高兴地宣布推出Flume 1.9.
阅读全文
摘要:基础依赖环境: 1, jdk 已装2, hadoop 2.x 已装3, hive 2.3.64, mysql 5, mysql-connector-jar 1.下载 2.解压拷贝 安装mysql用于存放元数据,把mysql_connector拷贝到lib目录,修改配置文件 创建数据库,创建用户赋予权
阅读全文
摘要:kafka(1)kafka是一个分布式的消息缓存系统(2)kafka集群中的服务器都叫做broker(3)kafka有两类客户端,一个叫做producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用TCP协议连接(4)kafka中的消息可以通过topic
阅读全文
摘要:storm图解 storm的基本概念 Topologies:拓扑,也俗称一个任务 Spoults:拓扑的消息源 Bolts:拓扑的处理逻辑单元 tuple:消息元组,在Spoults和Bolts传递数据报的一种格式 Streams:流 Streams groupings:流的分组策略 Tasks:任
阅读全文
摘要:hadoop小文件存档1.HDFS存档小文件弊端 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需的磁盘容量和数据块的大小无关。例如,一个1M的文件设置为128M的块存储,
阅读全文
摘要:1. DataNode也可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本2.具体配置如下
阅读全文
摘要:快照相当于对目录做备份,并不会复制所有文件,而是记录文件的变化命令用法 案例实操(1)开启/禁用制定目录的快照功能 (2)对目录创建快照 通过web访问hdfs://hadoop01:50070/user/atguigu/input/.snapshot/s…..// 快照和源文(3)指定名称创建快照
阅读全文
摘要:新增数据节点 0. 需求随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1. 环境准备 (1)在hadoop03主机上再克隆一台hadoop04主机 (2)修改IP地址和主机名称 (3)删除原来HDFS文件系统留存的文件(
阅读全文
摘要:1.集群时间同步 找一台机器,作为实践服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟同步一次时间.1.1步骤1.1.1时间服务器配置 1.1.2修改/etc/sysconfig/ntpd文件 1.1.3重新启动ntpd服务 1.1.4其他机器配置
阅读全文
浙公网安备 33010602011771号