随笔分类 -  Ubuntu+大数据

摘要:今天在开发过程中发现老师给的一个spark实验中大量用到了hive,甚至不用spark也可以完成,于是我就对这两个东西之间的关系去查了一些资料,在这里汇总下 参考链接https://blog.csdn.net/qq_36617639/article/details/80324982 大数据本身是个很 阅读全文
posted @ 2019-09-10 15:30 王怀宇 阅读(817) 评论(0) 推荐(2)
摘要:(1)进入spark (2)创建RDD 或者 (3)map实例 1. 作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 2. 需求:创建一个1-10数组的RDD,将所有元素*2形成新的RDD (4)mapPartitions(func) 案例 1. 作用:类似于map,但 阅读全文
posted @ 2019-09-06 16:54 王怀宇 阅读(6118) 评论(0) 推荐(0)
摘要:1.相关函数说明 OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化 CURRENT ROW:当前行 n PRECEDING:往前n行数据 n FOLLOWING:往后n行数据 UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, U 阅读全文
posted @ 2019-09-05 18:05 王怀宇 阅读(208) 评论(0) 推荐(1)
摘要:一、行转列 1.相关函数说明 CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔 阅读全文
posted @ 2019-09-05 14:58 王怀宇 阅读(11918) 评论(0) 推荐(1)
摘要:1. 数据准备(tab分割不要用空格) 悟空 A 男大海 A 男宋宋 B 男凤姐 A 女婷姐 B 女婷婷 B 女 2.需求 求出不同部门男女各多少人。结果如下: 3.新建文件将上述内容写入 4.在hive创建数据表 5.按需求查询 6.结果显示 阅读全文
posted @ 2019-09-05 14:27 王怀宇 阅读(982) 评论(0) 推荐(0)
摘要:Rank 1.函数说明 RANK() 排序相同时会重复,总数不会变 DENSE_RANK() 排序相同时会重复,总数会减少 ROW_NUMBER() 会根据顺序计算 2.数据准备(手巧时切记用tab分开,不要用空格,会报错0 孙悟空 语文 87孙悟空 数学 95孙悟空 英语 68大海 语文 94大海 阅读全文
posted @ 2019-09-05 13:57 王怀宇 阅读(5198) 评论(0) 推荐(1)
摘要:一、学习过程 今天的主要内容时hive的使用学习,从开始老师为我们讲解了hive的性质和来源以及他的运行流程。然后老师为我们讲了hive的安装,安装成功后老师按照之前发过的文档,逐条的为我们解释hive的使用方式,并为我们讲解例题。 二、总结 今天我学到hive的使用方式以及一些使用hive查询数据 阅读全文
posted @ 2019-09-04 19:00 王怀宇 阅读(153) 评论(0) 推荐(0)
摘要:(一)内部表&外部表 未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认 阅读全文
posted @ 2019-09-04 16:54 王怀宇 阅读(558) 评论(0) 推荐(0)
摘要:(一)集合数据类型 数据类型 描述 语法示例 STRUCT 和c语言中的struct类似,都可以通过“点”符号访问元素内容。例如,如果某个列的数据类型是STRUCT{first STRING, last STRING},那么第1个元素可以通过字段.first来引用。 struct() MAP MAP 阅读全文
posted @ 2019-09-04 16:09 王怀宇 阅读(2589) 评论(0) 推荐(1)
摘要:1. 需求 统计每一个手机号耗费的总上行流量、下行流量、总流量 (1)输入数据 (2)输入数据格式: 7 13560436666 120.196.100.99 1116 954 200 id 手机号码 网络ip 上行流量 下行流量 网络状态码 7 13560436666 120.196.100.99 阅读全文
posted @ 2019-09-03 20:53 王怀宇 阅读(515) 评论(0) 推荐(0)
摘要:培训总结(三) (一)学习过程 开始老师先讲诉了大数据的起源和具体应用以及应用的意义。然后老师为我们讲诉了hadoop的安装(虽然这个早就安装了好几遍),在hadoop安装成功后老师带我们做了一个简单的wordcount的例子,让我再一次重温了mapreduce的基础知识,在课程的最后老师给我留了一 阅读全文
posted @ 2019-09-02 21:33 王怀宇 阅读(380) 评论(0) 推荐(0)
摘要:(一)在eclipse中新建一个java项目,就普通建一个java项目就可以,然后添加hadoop的依赖包 (二)打开后选择add Exernal jars 添加hadoop的包,包的位置如下(/usr/local/hadoop/是我的hadoop路径) /usr/local/hadoop/shar 阅读全文
posted @ 2019-09-02 16:49 王怀宇 阅读(1411) 评论(0) 推荐(0)
摘要:(一)下载eclipse for javaee下面是下载地址 https://www.eclipse.org/downloads/download.php?file=/technology/epp/downloads/release/2019-06/R/eclipse-jee-2019-06-R-l 阅读全文
posted @ 2019-08-30 17:28 王怀宇 阅读(233) 评论(0) 推荐(0)
摘要:某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……请根据给定的实验数据,在 spark-shell 中 阅读全文
posted @ 2019-03-12 22:23 王怀宇 阅读(2339) 评论(0) 推荐(1)