随笔分类 - 大数据
摘要:thrift 依赖 bison,所以需要先安装bison bison安装 1、bison下载链接:http://www.gnu.org/software/bison/ 可以浏览器下载,也可以执行命令下载:wget http://ftp.gnu.org/gnu/bison/bison-3.2.tar.
阅读全文
摘要:cpc原理简述: cpc、hyperloglog等是使用概率思想实现“去重计数”的方法,该类方法不直接存储数据集合本身,而是通过一定的概率统计方法预估数据集中不重复元素的个数,这种方法可以大大节省内存,同时保证误差控制在一定范围内。 1、基本概率思想 伯努利试验:一次实验只有两种结果,比如抛硬币结果
阅读全文
摘要:最近在执行Hive insert/select语句的过程碰到下面这种类型的异常: 异常1: Caused by: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.h
阅读全文
摘要:这篇博客会阐述一份关于Apache Spark的在Scala UDF、 PySpark UDF 和PySpark Pandas UDF之间的性能评测报告。 Spark提供了多种解决方案来应对复杂挑战, 但是我们面临了很多场景, 原生的函数不足以解决问题。因此,Spark允许我们注册自定义函数(Use
阅读全文
摘要:Hive支持简单、复杂两大类数据类型, 简单类型 Hive 简单数据类型 Java 数据类型 长度 例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整数 20 INT int 4byte 有符号整数 20 BIGINT long 8byte
阅读全文
摘要:简介 Hive是一个数据仓库基础工具,提供sql查询,并可以将sql语句转换为MapReduce、Tez、Spark等任务,用来处理Hadoop HDFS中的数据,使得查询和分析更加方便。除此外,Hive还讲HDFS上的数据转换为了有行和列的二维表,并提供了统一的元数据管理功能。 架构 如上所述,H
阅读全文
摘要:无论是关系型数据库,还是SQL on Hadoop类的大数据技术组件,都有SQL JOIN功能,join大致分为内连接(inner join)、左外连接(left outer join)、右外连接(right outer join)、全外连接(full outer join)。 笛卡尔积 要理解各种
阅读全文
摘要:概览 离线fsimage查看器 是一个将 hdfs fsimage 文件的内容转储为人类可读格式的工具,并提供只读的 WebHDFS API,以允许离线分析和检查 Hadoop 集群的名称空间。该工具能够相对快速地处理非常大的fsimage文件。该工具处理 Hadoop 2.4及以上版本中包含的格式
阅读全文
摘要:概览 离线fsimage查看器 是一个将 hdfs fsimage 文件的内容转储为人类可读格式的工具,并提供只读的 WebHDFS API,以允许离线分析和检查 Hadoop 集群的名称空间。该工具能够相对快速地处理非常大的fsimage文件。该工具处理 Hadoop 2.4及以上版本中包含的格式
阅读全文
摘要:背景 在 HDFS 中,读操作通常要经过 DataNode。因此,当客户端请求 DataNode 读取文件时,DataNode 从磁盘读取该文件并通过 TCP 套接字将数据发送给客户端。所谓的“短路”读取就是绕过 DataNode,允许客户端直接读取文件。当然,这只有在客户端与数据共存的情况下才可能
阅读全文
摘要:归档存储是一种将不断增长的存储容量与计算容量分离开来的解决方案。密度更高、存储成本更低、计算能力更低的节点正在成为可用的、可以在集群中用作冷存储。根据策略,可以将热数据移到冷数据。增加节点到冷存储中可以增加不依赖于集群计算容量的存储容量。 异构存储和归档存储提供的框架对HDFS体系结构进行了概括,使
阅读全文
摘要:概览 Diskbalancer 是一个命令行工具,可以在某个datanode的所有磁盘上均匀地分布数据。这个工具不同于负责整个集群数据平衡的 Balancer 。由于以下几个原因,数据可能在节点上的磁盘之间不均匀地传播。这可能是由于大量的写和删除操作或者磁盘替换造成的。这个工具对给定的datanod
阅读全文
摘要:概述 混合负载生成器(SLG)是用于在不同客户端负载情况下测试NameNode行为的工具。用户可以通过指定读取和写入的概率来生成读取,写入和列表请求的不同混合。用户通过调整工作线程数量和操作之间的延迟参数来控制负载强度。在负载生成器运行时,用户可以分析和监视NameNode的运行。当负载生成器退出时
阅读全文
摘要:目的 副本策略开销很大 -- HDFS 中默认的3复制方案在存储空间和其他资源(例如,网络带宽)上有200% 的开销。然而,对于 i/o 活动相对较低的温和和冷数据集,在正常操作中很少访问额外的块副本,但仍然消耗与一个副本相同的资源量。 因此,一个自然的改进是使用擦除编码(EC)来代替副本,它提供了
阅读全文
摘要:概览 HDFS 中的集中式缓存管理 是一种明确的缓存机制,允许用户指定由 HDFS 缓存的路径。NameNode 将与磁盘上具有所需block的 datanode 通信,并指示它们将block缓存到off-heap缓存中。 HDFS 中的集中式缓存管理有许多显著的优点。 显式指定可以防止经常使用的数
阅读全文
摘要:概览 HDFS 允许管理员对目录下的子目录和文件个数(Name Quotas),以及目录下数据存储大小(Space Quotas)进行配额限制。名称配额和空间配额是独立运作的,但这两种配额的管理和实施是密切并行的。 名称配额(Name Quotas) 名称配额是对目录树中的文件和目录名的数量的硬限制
阅读全文
摘要:概览 HDFS 快照是文件系统的只读时间点副本。可以在文件系统或整个文件系统的子树上拍摄快照。快照的一些常见用例是数据备份、防止用户错误和灾难恢复。 HDFS 快照的实现是有效的: 快照创建是即时的: 不包括 inode 查找的话,时间的成本为 o (1)。 只有在相对于快照进行修改时才使用额外的内
阅读全文
摘要:引言 HDFS 是一个基于硬件的分散式档案系统分散式档案系统。它与现有的分布式文件系统有许多相似之处。然而,与其他分布式文件系统的区别是显著的。HDFS 具有很高的容错能力,可以部署在低成本的硬件上。HDFS 提供对应用程序数据的高吞吐量访问,适用于拥有大型数据集的应用程序。HDFS 放松了一些 P
阅读全文
摘要:本指南讨论如何使用 Quorum Journal Manager (QJM)配置和使用 HDFS HA 在 Active 和 Standby NameNodes 之间共享edit logs。 背景 在 Hadoop 2.0.0之前,NameNode 是 HDFS 集群中的单点故障(SPOF)。每个集
阅读全文
摘要:背景 在 HDFS 中,读操作通常要经过 DataNode。因此,当客户端请求 DataNode 读取文件时,DataNode 从磁盘读取该文件并通过 TCP 套接字将数据发送给客户端。所谓的“短路”读取就是绕过 DataNode,允许客户端直接读取文件。当然,这只有在客户端与数据共存的情况下才可能
阅读全文

浙公网安备 33010602011771号