摘要: 第三天笔记 SQL练习 1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 阅读全文
posted @ 2022-10-07 19:18 ~小小~ 阅读(289) 评论(0) 推荐(0)
摘要: Hive1.2.1学习(二) 1、Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件 阅读全文
posted @ 2022-10-07 19:10 ~小小~ 阅读(66) 评论(0) 推荐(0)
摘要: 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 思考:计算文件user.txt中张三出现几次,使用ma 阅读全文
posted @ 2022-10-07 18:56 ~小小~ 阅读(225) 评论(0) 推荐(0)
摘要: public class WordCount { //map读取数据的key类型定死是LongWritable,代表的是行号,从0开始,value是一行数据,Text static class MyMapper extends Mapper<LongWritable, Text, Text, Lon 阅读全文
posted @ 2022-08-28 18:50 ~小小~ 阅读(182) 评论(0) 推荐(0)
摘要: 问题分析: 单个reduce可能存在数据量过多导致数据倾斜 解决办法: 1、对数据的key加上随机前缀,让他们的hash值发生变化,分布一些到其他reduce里面去 2、适当增加reduce个数 阅读全文
posted @ 2022-08-28 10:59 ~小小~ 阅读(70) 评论(0) 推荐(0)
摘要: MapReduce的计算流程 1.1 原始数据File The books chronicle the adventures of the adolescent wizard Harry Potter and his best friends Ron Weasley and Hermione Gra 阅读全文
posted @ 2022-08-27 13:28 ~小小~ 阅读(695) 评论(0) 推荐(0)
摘要: 1、防火墙 service firewalld stop2、时间同步 yum install ntp ntpdate -u s2c.time.edu.cn 或者 date -s 20180503 3、免密钥 (远程执行命令) 在两个主节点生成密钥文件 ssh-keygen -t rsa ssh-co 阅读全文
posted @ 2022-08-24 15:58 ~小小~ 阅读(54) 评论(0) 推荐(0)
摘要: 一、搭建高可用集群 1.1 zookeeper搭建 1、上传安装包到master并解压 tar -xvf zookeeper-3.4.6.tar.gz 2、配置环境变量 vim /etc/profile export ZOOKEEPER_HOME=/usr/local/soft/zookeeper- 阅读全文
posted @ 2022-08-24 15:55 ~小小~ 阅读(61) 评论(0) 推荐(0)
摘要: 一、Hadoop-HA 1.1 Hadoop1.x带来的问题 1、单点故障 a. 每个群集只有一个NameNode,NameNode存在单点故障(SPOF)。 ​ b. 如果该计算机或进程不可用,则整个群集在整个NameNode重新启动或在另一台计算机上启动之前将不可用 ​ c. 如果发生意外事件( 阅读全文
posted @ 2022-08-24 15:53 ~小小~ 阅读(83) 评论(0) 推荐(0)
摘要: 一、写数据 写数据就是将客户端上的数据上传到HDFS 1.1 宏观过程 1.客户端向HDFS发送写数据请求 hdfs dfs -put students.txt /shujia/ 2. Filesystem通过rpc调用namenode的put方法 a. nn首先检查是否有足够的空间权限等条件创建这 阅读全文
posted @ 2022-08-24 15:42 ~小小~ 阅读(163) 评论(0) 推荐(0)