上一页 1 2 3 4 5 6 7 8 ··· 56 下一页

2020年12月5日

摘要: 1.创建表 create [external] table [if not exists] table_name (col_name data_type) [partitioned by col_name data_type] [clustered by col_name,col_name] [so 阅读全文
posted @ 2020-12-05 14:20 happygril3 阅读(62) 评论(0) 推荐(0)
摘要: 1. 分区表 静态分区(Static Partitioning)动态分区(Dynamic Partitioning) 分区创建 数据插入分区之前,需要手动创建每个分区 根据表的输入数据动态创建分区 适用场景 需要提前知道所有分区。适用于分区定义得早且数量少的用例 有很多分区,无法提前预估新分区,动态 阅读全文
posted @ 2020-12-05 13:50 happygril3 阅读(498) 评论(0) 推荐(0)
摘要: 1. 内部表(管理表): 默认是内部表,数据存储默认在配置项hive.metastore.warehouse.dir(/user/hive/warehouse)数据由Hive管理,drop删除时,元数据和实际数据都会被删除 2. 外部表 数据不由Hive管理,drop删除时,只删除元数据,不删除实际 阅读全文
posted @ 2020-12-05 13:48 happygril3 阅读(120) 评论(0) 推荐(0)
摘要: 1.创建数据库 --创建数据库 create database db_hive; --避免已存在 create database if not exists db_hive; --指定HDFS位置,默认"/user/hive/warehouse" create database db_hive lo 阅读全文
posted @ 2020-12-05 12:47 happygril3 阅读(79) 评论(0) 推荐(0)
摘要: Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。 1. 基本数据类型 hive不支持日期类型,在hive里日期都是用字符串来表示的,而常用的日期格式转化操作则是通过自定义函数进行操作。 2. 复杂数据类型 复杂数据类型包括数组(ARRAY)、映射(MAP)和结构体(STRUCT) 阅读全文
posted @ 2020-12-05 12:30 happygril3 阅读(115) 评论(0) 推荐(0)

2020年12月3日

摘要: 1.安装hive 1.1 修改文件 mv apache-hive-2.3.0-bin hive-2.3.0 1.2 修改/opt/module/hive-2.3.0/conf目录下的hive-env.sh.template为hive-env.sh HADOOP_HOME=/opt/module/ha 阅读全文
posted @ 2020-12-03 16:50 happygril3 阅读(42) 评论(0) 推荐(0)

2020年12月2日

摘要: 1.基本概念 hive是由facebook开源用于解决海量结构化日志的数据统计 hive是基于Hadoop得一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类sql查询功能 本质:将HQL转化为mapreduce程序 (1)hive处理的数据存储在HDFS (2)hive分析数据的底层的 阅读全文
posted @ 2020-12-02 18:43 happygril3 阅读(91) 评论(0) 推荐(0)

2020年12月1日

摘要: 1.缺失值处理 1.1 删除:样本存在大量缺失值,直接删除样本,如物业管理费 1.2 填充:全局常量,统计方法(平均数,中位数,众数),机器学习模型 电梯:六楼及以下的没有电梯,六楼以上的有电梯 修建年份:经纬度相同的数据进行中位数填充 绿化率:众数填充 1.3 不处理 2.异常值处理 简单统计法, 阅读全文
posted @ 2020-12-01 18:53 happygril3 阅读(81) 评论(0) 推荐(0)

2020年11月30日

摘要: ZooKeeper API的基础知识 与ZooKeeper集合进行交互的应用程序称为 ZooKeeper客户端或简称客户端。 Znode是ZooKeeper集合的核心组件,ZooKeeper API提供了一小组方法使用ZooKeeper集合来操纵znode的所有细节。 客户端应该遵循以步骤,与Zoo 阅读全文
posted @ 2020-11-30 16:14 happygril3 阅读(145) 评论(0) 推荐(0)
摘要: Zookeeper使用了Zookeeper Atomic Broadcast(ZAB,Zookeeper原子广播协议)的协议作为其数据一致性的核心算法。 ZAB协议是为Zookeeper专门设计的一种支持崩溃恢复的广播协议。 ZAB一些包括两种基本的模式:崩溃恢复和消息广播。 事务Proposal的 阅读全文
posted @ 2020-11-30 14:58 happygril3 阅读(161) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 56 下一页

导航