大数据经典书籍推荐
摘要:下面是大数据学习的基本经典书籍,有兴趣的同仁可以买来翻翻1.深入浅出数据分析这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。2.啤酒与尿布通过案例来说事情,而且是最经典的例子。难易程度:非常易。3.数据之美一本介绍性的书籍,每章都解决一个具体的问题,甚至还有...
阅读全文
posted @
2015-12-22 00:30
成都笨笨
阅读(3035)
推荐(0)
公开的海量数据集 Public Research-Quality Datasets
摘要:转载一篇文章:公开的海量数据集 Public Research-Quality Datasets 海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、Hadoop等架构的普遍推广,大家都在构建自己的...
阅读全文
posted @
2015-12-22 00:27
成都笨笨
阅读(669)
推荐(0)
HIVE存储(五)HIVE文件的性能测试
摘要:源表数据记录数:60000000第一步:创建三种文件类型的表,建表语法参考Hive文件存储格式Sql代码TextFile 1 set hive.exec.compress.output=true; 2 3 set mapred.output.compress=true; 4 5 set ...
阅读全文
posted @
2015-12-11 00:52
成都笨笨
阅读(1311)
推荐(0)
HIVE存储(四)ORCFile
摘要:先介绍下Orc的文件格式,截一张官方的图:可以看到每个Orc文件由1个或多个stripe组成,每个stripe250MB大小,这个Stripe实际相当于之前的rcfile里的RowGroup概念,不过大小由4MB->250MB,这样应该能提升顺序读的吞吐率。每个Stripe里有三部分组成,分别是...
阅读全文
posted @
2015-12-11 00:22
成都笨笨
阅读(774)
推荐(0)
HIVE存储(三)RCFile
摘要:RCFile(RecordColumnarFile)存储结构遵循的是“先水平划分,再垂直划分”的设计理念,这个想法来源于PAX。它结合了行存储和列存储的优点:首先,RCFile保证同一行的数据位于同一节点,因此元组重构的开销很低;其次,像列存储一样,RCFile能够利用列维度的数据压缩,并且能跳...
阅读全文
posted @
2015-12-11 00:11
成都笨笨
阅读(3498)
推荐(1)
HIVE存储(二)SequenceFile
摘要:Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个rowgroup,在rowgroup中对每个列分别进行存储。另:Hive能支持自定义格...
阅读全文
posted @
2015-12-11 00:00
成都笨笨
阅读(3856)
推荐(0)
HIVE存储(一)HIVE存储的介绍
摘要:Facebook曾在2010ICDE(IEEEInternationalConferenceonDataEngineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类SQL语言对数据进行自动化管理和处理,经过语句解...
阅读全文
posted @
2015-12-10 23:45
成都笨笨
阅读(8418)
推荐(0)