2020 年 8月随笔档案 - Protect_Winter

hive表查询——排序

摘要：1.全局排序 order by 使用orderby对全局进行排序的前提是只能有一个reduce。order by ASC升序，order by DESC降序。 order by 列别名：按照别名升序排序 order by 列名1 列名2：先按照列名1的升序排序，如果相等再按照列名2进行排序 2.局部阅读全文

posted @ 2020-08-29 10:03 Protect_Winter 阅读(861) 评论(0) 推荐(0)

假期总结4

摘要：学习时长 5小时发表博客数 6篇代码量 300行学习内容外部表操作，分区、分桶表操作，hive表操作及查询语法阅读全文

posted @ 2020-08-29 08:13 Protect_Winter

hive查询语法(2)

摘要：9.Group by语句 group by语句通常会和聚合函数一起使用，按照一个或者多个列队进行分组，然后对每个分组进行聚合操作注：和sql语句不同的是，select后面的字段必须和group by后面的字段保持一致。错误写法：此查询语句的结果： 10.having语句 having语句和wh 阅读全文

posted @ 2020-08-27 10:08 Protect_Winter 阅读(129) 评论(0) 推荐(0)

hive查询语法（1）

摘要：order by：会对输入做全局排序，因此只有一个reducer，会导致输入规模较大时，需要较长的计算时间 sort by：不是全局排序，其数据在进入reducer之前完成排序，只保证每个reducer的输出有序而不保证全局有序 distribute by：根据指定的字段将数据分到不同的reduce 阅读全文

posted @ 2020-08-26 08:27 Protect_Winter 阅读(425) 评论(0) 推荐(0)

hive表操作——修改表结构

摘要：1.修改表名字 alter table 表原来的名字 rename to 表新的名字 2.查询表结构 desc 表名字 3.添加列 alter table 表名字 add columns （列名字，列字段类型） 4.更新列 alter table 表名字 change column 列原来的名字列阅读全文

posted @ 2020-08-25 18:05 Protect_Winter 阅读(2715) 评论(0) 推荐(0)

分桶表基本操作

摘要：1.什么是分桶分桶就是将数据按照指定字段进行划分到多个文件中去。分桶就是MapReduce中的分区 2.开启Hive的分桶功能，设置Reduce个数 3.创建分桶表注：根据c_id将数据划分到3个桶中，分桶的关键字是 clustered by（）into （）buckets 将数据划分到几个桶中阅读全文

posted @ 2020-08-24 08:46 Protect_Winter 阅读(865) 评论(0) 推荐(0)

分区表的操作

摘要：1.什么是分区表在大数据中，最常用的一种思想就是分治，我们可以把大的文件分割成一个个的小文件，这样每次操作一个小文件就很容易了。在hive中仍然支持这种操作，将大的数据按照时间等划分成一个个的小文件，存放在不同的文件夹中。 2.创建分区表关键字：partitioned by（分区字段，类型）分区阅读全文

posted @ 2020-08-24 08:22 Protect_Winter 阅读(251) 评论(0) 推荐(0)

外部表的操作

摘要：1.什么是外部表外部表因为是指定其他hdfs路径的数据加载到表中来，所以hive认为自己不会独占这份数据，所以删除外部表时，不会删除数据，只会删除元数据 2.内部表和外部表的使用场景当数据需要共享时，使用外部表，当数据为独有时使用内部表 3.创建外部表需要添加external关键字 4.加载数阅读全文

posted @ 2020-08-23 09:55 Protect_Winter 阅读(278) 评论(0) 推荐(0)

假期学习总结3

摘要：学习时长 5小时发表博客数 3篇代码量 300行学习内容数据仓库基本概念，Hive基础，内部表操作阅读全文

posted @ 2020-08-23 09:16 Protect_Winter

内部表操作

摘要：1.创建表并指定字段间的分隔符 create table if not exists stu2(id int,name string) row format delimited fields terminated by '\t'; 2.创建表并指定表的存放路径 create table if not 阅读全文

posted @ 2020-08-23 09:13 Protect_Winter 阅读(200) 评论(0) 推荐(0)

Hive基础操作

摘要：1.创建数据库说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的，在这个文件中还规定了文件的访问权限创建指定路径的数据库设置数据库键值对信息 2.删除数据库这个命令只能删除空数据库，强制删除数据库连带下面的表一起删除可以在后面加一个参数：cascade 3.创建阅读全文

posted @ 2020-08-21 09:13 Protect_Winter 阅读(143) 评论(0) 推荐(0)

Hive数据仓库基本概念

摘要：1.基本概念数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持。数据仓库是存数据的，企业的各种数据都往里面存，主要目的是分析有效数据，后续会基于它产出供分析挖掘的数据。 2.数据仓库的分层架构恢复内容开始 1.基本概念数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支阅读全文

posted @ 2020-08-20 11:13 Protect_Winter 阅读(758) 评论(0) 推荐(0)

假期学习总结2

摘要：学习时长 7个小时代码量 600行博客量 4篇学习内容 Hadoop镜像安装，Shell脚本基础，HDFS基础，MapReduce基础阅读全文

posted @ 2020-08-20 09:58 Protect_Winter

MapReduce基础介绍

摘要：1.概述： MapReduce的和心思想：将复杂的任务分解成小任务并行计算，再对所有小任务的结果进行汇总。 2.MapReduce编程规范一共有8个步骤 Map阶段：切分数据，进行并行计算设置InputFormat类，将数据切分成键值对<k1,v1>输入到第二步。键值对代表的含义：k1代表各行文阅读全文

posted @ 2020-08-18 09:39 Protect_Winter 阅读(138) 评论(0) 推荐(0)

HDFS的高可用机制和联邦机制

摘要：1.高可用机制：在搭建Hadoop集群时可以配置很多个NameNode，这样使得在一个NameNode出现问题时其他NameNode可以迅速代替。当一个NameNode处于Activity状态时，其他处于Standby状态，在此期间，所有NameNode的元数据保持一致。 2.NameNode的阅读全文

posted @ 2020-08-17 19:02 Protect_Winter 阅读(1026) 评论(0) 推荐(0)

HDFS基础内容

摘要：1.概述：有些时候文件过大，需要将文件切分成不同的小部分放在不同的主机上。HDFS的作用就是整合这些小的切片，当客户端需要访问时，将所有内容整合起来返回给客户端。 2.架构 HDFS主要有4部分，HDFS Client，NameNode，Secondary NameNode，DataNode HD 阅读全文

posted @ 2020-08-17 08:48 Protect_Winter 阅读(142) 评论(0) 推荐(0)

shell脚本基础

摘要：学习大数据需要用到一些shell脚本，所以今天学习了一些关于shell脚本的基础知识 1.创建shell脚本并进行编辑 #！/bin/bash 是固定写法意思时使用bash下面的bash解释器 echo相当于一个输出保存退出的方法是输入：wq 运行的方法是：sh +运行脚本的名字 chmod + 阅读全文

posted @ 2020-08-15 10:21 Protect_Winter 阅读(138) 评论(0) 推荐(0)

大数据Linux实验环境虚拟机镜像文件安装

摘要：文件获取地址：http://dblab.xmu.edu.cn/blog/1645-2/ 安装教程： 1.下载Oracle VirtualBox 2.下载镜像文件 3.导入虚拟电脑选择下载好的镜像文件，单击回车键修改默认虚拟电脑位置，单击回车导入成功后，点击管理-》网络操作管理器，将连接方式改为阅读全文

posted @ 2020-08-14 10:21 Protect_Winter 阅读(707) 评论(0) 推荐(0)

假期学习总结1：Numpy基础操作

摘要：1.numpy：NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。 2.基础操作： import numpy as np #创建阅读全文

posted @ 2020-08-08 10:27 Protect_Winter 阅读(98) 评论(0) 推荐(0)

Protect_Winter's Sketchbook

08 2020 档案

公告