摘要: http://blog.csdn.net/aijiudu/article/details/72353510 废话不说直接来一张图如下: 从JVM的角度看Map和Reduce Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产 阅读全文
posted @ 2018-03-19 19:26 大数据从业者FelixZh 阅读(12192) 评论(0) 推荐(1)
摘要: ORCFILE IN HDP 2: BETTER COMPRESSION, BETTER PERFORMANCE by Carter Shanklin by Carter Shanklin The upcoming Hive 0.12 is set to bring some great new a 阅读全文
posted @ 2018-03-19 18:58 大数据从业者FelixZh 阅读(386) 评论(0) 推荐(0)
摘要: 1、背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11 阅读全文
posted @ 2018-03-19 17:18 大数据从业者FelixZh 阅读(3761) 评论(1) 推荐(0)
摘要: ORC文件格式是从Hive-0.11版本开始的。关于ORC文件格式的官方文档,以及基于官方文档的翻译内容这里就不赘述了,有兴趣的可以仔细研究了解一下。本文接下来根据论文《Major Technical Advancements in Apache Hive》中的内容进行深入的研究。 一、ORC文件格 阅读全文
posted @ 2018-03-19 16:51 大数据从业者FelixZh 阅读(1779) 评论(0) 推荐(0)
摘要: Hive简介 Hive是一个基于 Hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它最初是应Facebook对每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,Hive把海量数据存储于Hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并 阅读全文
posted @ 2018-03-19 16:12 大数据从业者FelixZh 阅读(1510) 评论(0) 推荐(0)
摘要: Short Description: Hive configuration settings to optimize your HiveQL when querying ORC formatted tables. Short Description: Article SYNOPSIS The Opt 阅读全文
posted @ 2018-03-19 15:09 大数据从业者FelixZh 阅读(414) 评论(0) 推荐(0)
摘要: Short Description: ORC Creation Best Practices with examples and references. Short Description: Article Synopsis. ORC is a columnar storage format for 阅读全文
posted @ 2018-03-19 14:01 大数据从业者FelixZh 阅读(427) 评论(0) 推荐(0)
大数据从业者