2019年7月18日

窗口函数中的三大排名函数

摘要: 排名函数:1. row_number: 没有并列,相同名次顺序排2. rank: 有并列,相同名次有空位3. dense_rank: 有并列,相同名次无空位 阅读全文

posted @ 2019-07-18 01:09 红苹果至尊宝 阅读(651) 评论(0) 推荐(0)

2019年7月17日

hive中sql语义解析和sql的执行顺序

摘要: hive中的sql语句解释 select distinct 输出数据,查询结果 --去重 from 输入目录 join 输入目录 on 多表的关联条件 where 过滤条件 group by 分组 having 过滤条件,只对聚合的结果进行过滤 distribute by cluster by 分区 阅读全文

posted @ 2019-07-17 09:36 红苹果至尊宝 阅读(640) 评论(0) 推荐(0)

Hive执行流程

摘要: 编译器将一个Hive Query Language转换操作符,操作符是Hive的最小的处理单元,每个操作符代表HDFS的一个操作或者一道MapReduce作业。Hive定义一个处理过程为Operator。 操作符 描述 TableScanOperator 扫描hive表数据 ReduceSinkOp 阅读全文

posted @ 2019-07-17 01:01 红苹果至尊宝 阅读(185) 评论(0) 推荐(0)

2019年7月15日

hive中克隆表的类型(不带数据和大数据),以及批量导入和本地模式设置

摘要: 1. insert into select 批量导入数据 insert into t3 select * from t4 where id > 2 2. 设置本地模式 set hive.exec.mode.local.auto=true 3. 克隆表: 不带数据 (like) create tabl 阅读全文

posted @ 2019-07-15 17:44 红苹果至尊宝 阅读(385) 评论(0) 推荐(0)

Hive的架构

摘要: Hive的架构 1.用户连接客户端: cli jdbc/odbc/ web gui 2.第三方服务: thrift server 3.hive的元数据存储: metastore(库名,表名,字段名) 4.解释器: Driver(讲hql语句生成抽象表达式树) 5.编译器: compiler (对hq 阅读全文

posted @ 2019-07-15 11:06 红苹果至尊宝 阅读(106) 评论(0) 推荐(0)

大数据中MR可干预的组件

摘要: MR可干预的组件有: 1.inputformat 2.outputformat 3.recordreader 4.recordwriter 5.Partitioner:分区 6.key.compareTo: 排序 7.groupingcomparator: 分组比较器 8.combiner: 局部合 阅读全文

posted @ 2019-07-15 09:55 红苹果至尊宝 阅读(156) 评论(0) 推荐(0)

2019年7月13日

大数据集群直接"免密登陆的原理"以及简略步骤

摘要: hadoop01生成公钥和私钥对,把公钥发送到hadoop02上 1.hadoop01要给hadoop02发消息(用私钥进行加密过) 2.hadoop02检查是否有hadoop01的公钥 3.如果有用公钥加密一个随机字符串发送给登录方(hadoop01) 4.hadoop01用私钥进行解密并进行返回 阅读全文

posted @ 2019-07-13 00:53 红苹果至尊宝 阅读(297) 评论(0) 推荐(0)

2019年7月12日

zookeeper的作用和特性

摘要: zookeeper的作用: 1.为用户提供数据注册,查询的功能 2.能够感知用户的状态,为用户提供数据节点的监听注册服务 3.与用户之间保持心跳通信以感知用户的状态 协调的工作: 为一个分布式提供协调工作 zookeeper集群的特性: zookeeper集群: 一个leader,多个followe 阅读全文

posted @ 2019-07-12 10:23 红苹果至尊宝 阅读(851) 评论(0) 推荐(0)

大数据中分片多少的决定因素

摘要: 1. 数据量 2. 分片的大小 (默认情况下是:分片的大小=分块的大小) 3. 文件的个数 阅读全文

posted @ 2019-07-12 10:20 红苹果至尊宝 阅读(253) 评论(0) 推荐(0)

2019年7月11日

大数据相关概念

摘要: 1:大数据的最标准的概念 无法在一定的时间内,无法用常规的软件工具进行捕捉,管理和处理的数据集合,需要新的处理模式才能进行更好的管理和分析 2.大数据主要解决什么 大数据主要解决海量数据的存储问题(由HDFS解决)以及海量数据的分析问题(由MapReduce解决) 3.数据存储单位从小到大的顺序 b 阅读全文

posted @ 2019-07-11 09:48 红苹果至尊宝 阅读(207) 评论(0) 推荐(0)

导航