大数据学习笔记

大数据学习笔记

Zookeeper

是一个领导者,多个跟随者组成的集群。集群中只要有半数以上的节点存活,集群就能正常服务。

ZK的shell操作

Hive

hive是Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
本质是将HQL转化成MapReduce程序。
hive采用了类似于sql的语言,叫做HQL。但是hive并不是数据库,hive是用mapreduce来查的。hive不建议对数据进行改写,所有的数据都是在加载的时候确定好的。

hive的基本操作

  1. 启动hive bin/hive
  2. 查看数据库show databases
  3. 打开数据库 use databasename
  4. 显示某个数据库中的表 show tables
  5. 创建一张表 create table student(id int, name string);
  6. 查看表的结构 desc student
  7. 向表中插入数据 insert into student values(1000, "ss");
  8. 查询表中的数据 select * from student
  9. 退出hive quit;

可以看到和sql语句及其相似。

hive的数据类型


对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。
Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。

posted @ 2020-06-16 08:58  时光轻轻吹  阅读(110)  评论(0)    收藏  举报