随笔分类 - BigData
大数据相关文章分类
摘要:Flink提供了不同的状态存储方式,并说明了状态如何存和存储在哪里。 状态可以被存储在Jvm的堆和堆外。根据状态存储方式的不同,Flink也能代替应用管理状态,意思是Flink能够进行内存管理(有必要的时候,可能会溢出到硬盘),允许应用保存非常大的状态。默认情况下,在配置文件flink-conf.y
阅读全文
摘要:key状态和算子状态 key状态 key状态总是与key有关,只能被用于keyedStream类型的函数与算子。你可以认为key状态是一种被分区的算子状态,每一个key有一个状态分区。每一个key状态逻辑上由<parellel-operator-instance, key>唯一确定,由于每一个key
阅读全文
摘要:Apache YARN(Yet Another Resource Negotiator)是一个Hadoop集群资源管理系统。YARN是在Hadoop 2引入的,用以改善MapReduce的表现。但是它也足够胜任其它的分布式计算框架。 YARN提供了一些能被请求调用的APIs,并处理集群资源。但是通常
阅读全文
摘要:数据流 读取文件数据的剖析 为了知道客户端与HDFS,NameNode,DataNode交互过程中数据的流向,请看图3 2,这张图显示了读取文件过程中主要的事件顺序。 客户端通过调用FileSystem对象的open()方法打开一个希望从中读取数据的文件,对于HDFS来说,FileSystem是一个
阅读全文
摘要:当数据量增大到超出了单个物理计算机存储容量时,有必要把它分开存储在多个不同的计算机中。那些管理存储在多个网络互连的计算机中的文件系统被称为“分布式文件系统”。由于这些计算机是基于网络连接的,所以网络编程的那些复杂性都会涉及,这也造成了分布式文件系统比一般的磁盘存储文件系统更复杂。例如,其中最大的一个
阅读全文
摘要:MapReduce是一个数据处理的编程模型。这个模型很简单,但也不是简单到不能够支持一些有用的语言。Hadoop能够运行以多种语言写成的MapReduce程序。在这一章中,我们将看看怎样用Java,Ruby,Python语言来写同一个例子。更重要的是,MapReduce程序天生并发运行,这就相当于把
阅读全文
摘要:最近在工作中,使用CASE WHEN语句的时候,总是出现异常,查看日志是由于数组超界。不知所以然,然后进行了一步步分析,发现这是hive本身的bug,分享出来,一是为了记录,二是想让大家共同看看,欢迎指正。 使用的是CDH5.14.0版本。 CDH5.14.0使用的HIVE版本 自建日志表log:
阅读全文
摘要:Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。使用Python开发(如果使用Java开发,请看这里)。 一、map与reduce脚本 map脚本(mapper.py) reduce脚本(reducer.py) 注意一点的是,不能使用for
阅读全文
摘要:Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。 如果自己使用Java开发,需要处理System.in,System,out以及key/value的各种逻辑,比较麻烦。有人开发了一个小框架,可以让我们使用与Hadoop中map与reduce相
阅读全文
摘要:众所周知,数据库必须要能够支持并发。无论在任何时候,允许同一时刻,多个用户能够同时读取或写入。没有必要给用户提供API显示的获取锁,所以所有的锁都是隐式获取的。 在Hive中有两种类型的锁: 共享锁Shared(S) 排它锁Exclusive(X) 就如它们的名字一样,可以在同一时刻,获取多个共享锁
阅读全文
摘要:大家都知道,Apache Hadoop的配置很繁琐,而且很零散,为此Cloudera公司提供了Clouder Manager工具,而且还封装了Apache Hadoop,flume,spark,hive,hbase等大数据产品形成自己特色的CDH产品,再使用CM进行安装,很大程度上方便了集群的搭建,
阅读全文