上一页 1 ··· 15 16 17 18 19
摘要: 阅读全文
posted @ 2019-12-07 10:37 一只竹节虫 阅读(151) 评论(0) 推荐(0)
摘要: 一.root 用户 解压安装包 二 chown -R hadoop:hadoop apache-hive-1.2.2-bin/ chmod -R 755 apache-hive-1.2.2-bin/ 三.切换 hadoop用户 启动hadoop集群 四.打开hive目录,运行./bin/hive H 阅读全文
posted @ 2019-12-06 15:57 一只竹节虫 阅读(479) 评论(0) 推荐(0)
摘要: 步骤:input从HDFS读取内容, split()切割分片内容,key/value, map()方法对输入的key/value进行计算处理,先写到内存,在内存中进行分区、排序,之后将Key/value写入磁盘对应分区 combiner方法(本地计算,不是所有都适用,目的是减少网络传输) shuff 阅读全文
posted @ 2019-12-05 11:19 一只竹节虫 阅读(999) 评论(0) 推荐(0)
摘要: 什么是数据倾斜? 数据不可避免的出现离群值,并导致数据倾斜,数据倾斜会显著的拖慢MR的执行速度 常见数据倾斜有以下几类 1.数据频率倾斜 某一个区域的数据量要远远大于其他区域 2.数据大小倾斜 一部分记录的大小远远大于平均值 解决数据倾斜的常用方法 阅读全文
posted @ 2019-12-05 11:12 一只竹节虫 阅读(298) 评论(0) 推荐(0)
摘要: 先放结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别:Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿) 阅读全文
posted @ 2019-12-04 10:10 一只竹节虫 阅读(268) 评论(0) 推荐(0)
上一页 1 ··· 15 16 17 18 19