上一页 1 ··· 24 25 26 27 28
摘要: 1、 hadoop 运行原理2、 mapreduce 原理3、 mapreduce 的优化4、举一个简单的例子说下 mapreduce 是怎么运行的5、 hadoop 中 combiner 的作用6、简述 hadoop 的安装7、请列出 hadoop 的进程名8、简述 hadoop 的调度器9、列出 阅读全文
posted @ 2018-07-16 14:52 stone1234567890 阅读(2804) 评论(4) 推荐(0) 编辑
摘要: 事务的四个特性 1.automicity:原子性 2.consistency:一致性 3. isolation:独立性 4.durability:持久性 5.支持事务有几个条件需要满足:1.所有的事务都支持自动提交;2.只支持ORC格式的数据;3.桶表 7.配置hive的参数使其支持事务: 在hiv 阅读全文
posted @ 2018-07-16 09:34 stone1234567890 阅读(5747) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-07-15 15:43 stone1234567890 阅读(373) 评论(0) 推荐(0) 编辑
摘要: Hive 是什么? 1.Hive 是基于 Hadoop处理结构化数据的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能。 2.Hive 利用 HDFS 存储数据,利用MapReduce 查询分析数据。本质是将 SQL 转换为 MapReduce 程序,比直接用 阅读全文
posted @ 2018-07-15 15:42 stone1234567890 阅读(961) 评论(0) 推荐(0) 编辑
摘要: 深入理解hadoop之机架感知 机架感知 hadoop的replication为3,机架感知的策略为: 第一个block副本放在和client所在的datanode里(如果client不在集群范围内,则这第一个node是随机选取的)。第二个副本放置在与第一个节点不同的机架中的datanode中(随机 阅读全文
posted @ 2018-07-15 09:15 stone1234567890 阅读(3230) 评论(1) 推荐(0) 编辑
摘要: MapReduce的排序是默认按照Key排序的,也就是说输出的时候,key会按照大小或字典顺序来输出,比如一个简单的wordcount,出现的结果也会是左侧的字母按照字典顺序排列。下面我们主要聊聊面试中比较常见的全排序和二次排序 一、全排序 全排序的方法一般有以下几种: 1.使用一个分区。 但是该方 阅读全文
posted @ 2018-07-14 23:50 stone1234567890 阅读(3383) 评论(1) 推荐(1) 编辑
摘要: 深入理解hadoop之数据倾斜 1、什么是数据倾斜 我们在用map /reduce程序执行时,有时候会发现reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的r 阅读全文
posted @ 2018-07-14 11:56 stone1234567890 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 深入理解hadoop之HDFS 刚刚才写完关于mapreduce的一篇博文,趁热打铁接下来聊聊HDFS。本博文参考资料为HADOOP权威指南第3版完版,博文如有错漏之处,敬请指正。 HDFS即Hadoop Distributed FileSystem,是hadoop旗舰机的文件系统。HDFS以流式数 阅读全文
posted @ 2018-07-14 08:36 stone1234567890 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 本文系原创,若有转载需要,请注明出处。https://www.cnblogs.com/bigdata-stone/ 1.mapReduce简介 MapReduce是面向大数据并行处理的计算模型、框架和平台。 2.图解计算框架:(画图不易,请勿挑剔) 2.1. inputformat工作机制 在 Ma 阅读全文
posted @ 2018-07-14 07:47 stone1234567890 阅读(2581) 评论(1) 推荐(1) 编辑
上一页 1 ··· 24 25 26 27 28