Hadoop - 随笔分类 - 小丑进场

Hadoop HA 深度解析

摘要：社区hadoop2.2.0 release版本开始支持NameNode的HA，本文将详细描述NameNode HA内部的设计与实现。为什么要Namenode HA？ 1. NameNode High Availability即高可用。 2. NameNode 很重要，挂掉会导致存储停止服务，无法进阅读全文

posted @ 2017-10-15 10:06 小丑进场阅读(654) 评论(0) 推荐(0)

Hive与Hbase的区别

摘要：1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能阅读全文

posted @ 2017-08-27 13:09 小丑进场阅读(518) 评论(0) 推荐(0)

HIVE—索引、分区和分桶的区别

摘要：一、索引简介 Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。为什么要创建索引？ Hive的索引目的是提高Hive表指定列的阅读全文

posted @ 2017-08-24 20:26 小丑进场阅读(16258) 评论(0) 推荐(4)

MapReduce编程之Semi Join多种应用场景与使用

摘要：Map Join 实现方式一 ● 使用场景：一个大表（整张表内存放不下，但表中的key内存放得下），一个超大表 ● 实现方式：分布式缓存 ● 用法: SemiJoin就是所谓的半连接，其实仔细一看就是reduce join的一个变种，就是在map端过滤掉一些数据，在网络中只传输参与连接的数据不参与连阅读全文

posted @ 2017-08-13 16:40 小丑进场阅读(992) 评论(0) 推荐(0)

MapReduce编程之Map Join多种应用场景与使用

摘要：Map Join 实现方式一：分布式缓存 ● 使用场景：一张表十分小、一张表很大。 ● 用法: 在提交作业的时候先将小表文件放到该作业的DistributedCache中，然后从DistributeCache中取出该小表进行join (比如放到Hash Map等等容器中)。然后扫描大表，看大表中的每阅读全文

posted @ 2017-08-13 16:30 小丑进场阅读(1446) 评论(0) 推荐(0)

MapReduce编程之Reduce Join多种应用场景与使用

摘要：在关系型数据库中 Join 是非常常见的操作，各种优化手段已经到了极致。在海量数据的环境下，不可避免的也会碰到这种类型的需求，例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式，在分布式存储下采用 MapReduce 编程模型，也有相应的处理措施和优化方法。我们先简要地描述阅读全文

posted @ 2017-08-13 16:20 小丑进场阅读(2575) 评论(0) 推荐(0)

Mapreduce——视频播放数据分类统计

摘要：很多视频网站都有电视剧热度排名，一般是依据用户在自己站的行为数据所体现出的受欢迎程度来排名。这里有一份来自优酷、爱奇艺、搜索视频等五大视频网站的一份视频播放数据，我们利用这份数据做些有意义的事情。金婚第一部 3 9851 0 0 0 0金婚第一部 3 9851 0 0 0 0金婚第一部 3 985 阅读全文

posted @ 2017-08-12 10:14 小丑进场阅读(1004) 评论(0) 推荐(0)

小丑进场

把时间当做朋友，耐心积累才是王道！

随笔分类 - Hadoop

公告