一只竹节虫

2019年12月7日

摘要：阅读全文

posted @ 2019-12-07 10:37 一只竹节虫阅读(151) 评论(0) 推荐(0)

2019年12月6日

摘要：一.root 用户解压安装包二 chown -R hadoop:hadoop apache-hive-1.2.2-bin/ chmod -R 755 apache-hive-1.2.2-bin/ 三.切换 hadoop用户启动hadoop集群四.打开hive目录，运行./bin/hive H 阅读全文

posted @ 2019-12-06 15:57 一只竹节虫阅读(479) 评论(0) 推荐(0)

2019年12月5日

MapReduce计算原理及步骤

摘要：步骤：input从HDFS读取内容， split（）切割分片内容，key/value， map（）方法对输入的key/value进行计算处理，先写到内存，在内存中进行分区、排序，之后将Key/value写入磁盘对应分区 combiner方法（本地计算，不是所有都适用，目的是减少网络传输） shuff 阅读全文

posted @ 2019-12-05 11:19 一只竹节虫阅读(999) 评论(0) 推荐(0)

MapReduce分区数据倾斜

摘要：什么是数据倾斜？数据不可避免的出现离群值，并导致数据倾斜，数据倾斜会显著的拖慢MR的执行速度常见数据倾斜有以下几类 1.数据频率倾斜某一个区域的数据量要远远大于其他区域 2.数据大小倾斜一部分记录的大小远远大于平均值解决数据倾斜的常用方法阅读全文

posted @ 2019-12-05 11:12 一只竹节虫阅读(298) 评论(0) 推荐(0)

2019年12月4日

Hbase和Hive在大数据架构中处在不同位置

摘要：先放结论：Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。一、区别：Hbase： Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）阅读全文

posted @ 2019-12-04 10:10 一只竹节虫阅读(268) 评论(0) 推荐(0)

公告