08 2020 档案

摘要:1.全局排序 order by 使用orderby对全局进行排序的前提是只能有一个reduce。order by ASC升序,order by DESC降序。 order by 列别名:按照别名升序排序 order by 列名1 列名2:先按照列名1的升序排序,如果相等再按照列名2进行排序 2.局部 阅读全文
posted @ 2020-08-29 10:03 Protect_Winter 阅读(861) 评论(0) 推荐(0)
摘要:学习时长 5小时 发表博客数 6篇 代码量 300行 学习内容 外部表操作,分区、分桶表操作,hive表操作及查询语法 阅读全文
posted @ 2020-08-29 08:13 Protect_Winter
摘要:9.Group by语句 group by语句通常会和聚合函数一起使用,按照一个或者多个列队进行分组,然后对每个分组进行聚合操作 注:和sql语句不同的是,select后面的字段必须和group by后面的字段保持一致。 错误写法: 此查询语句的结果: 10.having语句 having语句和wh 阅读全文
posted @ 2020-08-27 10:08 Protect_Winter 阅读(129) 评论(0) 推荐(0)
摘要:order by:会对输入做全局排序,因此只有一个reducer,会导致输入规模较大时,需要较长的计算时间 sort by:不是全局排序,其数据在进入reducer之前完成排序,只保证每个reducer的输出有序而不保证全局有序 distribute by:根据指定的字段将数据分到不同的reduce 阅读全文
posted @ 2020-08-26 08:27 Protect_Winter 阅读(425) 评论(0) 推荐(0)
摘要:1.修改表名字 alter table 表原来的名字 rename to 表新的名字 2.查询表结构 desc 表名字 3.添加列 alter table 表名字 add columns (列名字,列字段类型) 4.更新列 alter table 表名字 change column 列原来的名字 列 阅读全文
posted @ 2020-08-25 18:05 Protect_Winter 阅读(2715) 评论(0) 推荐(0)
摘要:1.什么是分桶 分桶就是将数据按照指定字段进行划分到多个文件中去。分桶就是MapReduce中的分区 2.开启Hive的分桶功能,设置Reduce个数 3.创建分桶表 注:根据c_id将数据划分到3个桶中,分桶的关键字是 clustered by()into ()buckets 将数据划分到几个桶中 阅读全文
posted @ 2020-08-24 08:46 Protect_Winter 阅读(865) 评论(0) 推荐(0)
摘要:1.什么是分区表 在大数据中,最常用的一种思想就是分治,我们可以把大的文件分割成一个个的小文件,这样每次操作一个小文件就很容易了。在hive中仍然支持这种操作,将大的数据按照时间等划分成一个个的小文件,存放在不同的文件夹中。 2.创建分区表 关键字:partitioned by(分区字段,类型)分区 阅读全文
posted @ 2020-08-24 08:22 Protect_Winter 阅读(251) 评论(0) 推荐(0)
摘要:1.什么是外部表 外部表因为是指定其他hdfs路径的数据加载到表中来,所以hive认为自己不会独占这份数据,所以删除外部表时,不会删除数据,只会删除元数据 2.内部表和外部表的使用场景 当数据需要共享时,使用外部表,当数据为独有时使用内部表 3.创建外部表 需要添加external关键字 4.加载数 阅读全文
posted @ 2020-08-23 09:55 Protect_Winter 阅读(278) 评论(0) 推荐(0)
摘要:学习时长 5小时 发表博客数 3篇 代码量 300行 学习内容 数据仓库基本概念,Hive基础,内部表操作 阅读全文
posted @ 2020-08-23 09:16 Protect_Winter
摘要:1.创建表并指定字段间的分隔符 create table if not exists stu2(id int,name string) row format delimited fields terminated by '\t'; 2.创建表并指定表的存放路径 create table if not 阅读全文
posted @ 2020-08-23 09:13 Protect_Winter 阅读(200) 评论(0) 推荐(0)
摘要:1.创建数据库 说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的,在这个文件中还规定了文件的访问权限 创建指定路径的数据库 设置数据库键值对信息 2.删除数据库 这个命令只能删除空数据库,强制删除数据库连带下面的表一起删除可以在后面加一个参数:cascade 3.创建 阅读全文
posted @ 2020-08-21 09:13 Protect_Winter 阅读(143) 评论(0) 推荐(0)
摘要:1.基本概念 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库是存数据的,企业的各种数据都往里面存,主要目的是分析有效数据,后续会基于它产出供分析挖掘的数据。 2.数据仓库的分层架构 恢复内容开始 1.基本概念 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支 阅读全文
posted @ 2020-08-20 11:13 Protect_Winter 阅读(758) 评论(0) 推荐(0)
摘要:学习时长 7个小时 代码量 600行 博客量 4篇 学习内容 Hadoop镜像安装,Shell脚本基础,HDFS基础,MapReduce基础 阅读全文
posted @ 2020-08-20 09:58 Protect_Winter
摘要:1.概述: MapReduce的和心思想:将复杂的任务分解成小任务并行计算,再对所有小任务的结果进行汇总。 2.MapReduce编程规范 一共有8个步骤 Map阶段:切分数据,进行并行计算 设置InputFormat类,将数据切分成键值对<k1,v1>输入到第二步。键值对代表的含义:k1代表各行文 阅读全文
posted @ 2020-08-18 09:39 Protect_Winter 阅读(138) 评论(0) 推荐(0)
摘要:1.高可用机制: 在搭建Hadoop集群时可以配置很多个NameNode,这样使得在一个NameNode出现问题时其他NameNode可以迅速代替。 当一个NameNode处于Activity状态时,其他处于Standby状态,在此期间,所有NameNode的元数据保持一致。 2.NameNode的 阅读全文
posted @ 2020-08-17 19:02 Protect_Winter 阅读(1026) 评论(0) 推荐(0)
摘要:1.概述: 有些时候文件过大,需要将文件切分成不同的小部分放在不同的主机上。HDFS的作用就是整合这些小的切片,当客户端需要访问时,将所有内容整合起来返回给客户端。 2.架构 HDFS主要有4部分,HDFS Client,NameNode,Secondary NameNode,DataNode HD 阅读全文
posted @ 2020-08-17 08:48 Protect_Winter 阅读(142) 评论(0) 推荐(0)
摘要:学习大数据需要用到一些shell脚本,所以今天学习了一些关于shell脚本的基础知识 1.创建shell脚本并进行编辑 #!/bin/bash 是固定写法 意思时使用bash下面的bash解释器 echo相当于一个输出 保存退出的方法是输入:wq 运行的方法是:sh +运行脚本的名字 chmod + 阅读全文
posted @ 2020-08-15 10:21 Protect_Winter 阅读(138) 评论(0) 推荐(0)
摘要:文件获取地址:http://dblab.xmu.edu.cn/blog/1645-2/ 安装教程: 1.下载Oracle VirtualBox 2.下载镜像文件 3.导入虚拟电脑 选择下载好的镜像文件,单击回车键 修改默认虚拟电脑位置,单击回车 导入成功后,点击管理-》网络操作管理器,将连接方式改为 阅读全文
posted @ 2020-08-14 10:21 Protect_Winter 阅读(707) 评论(0) 推荐(0)
摘要:1.numpy:NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。 2.基础操作: import numpy as np #创建 阅读全文
posted @ 2020-08-08 10:27 Protect_Winter 阅读(98) 评论(0) 推荐(0)