Ubuntu+大数据 - 随笔分类 - 王怀宇

hadoop，hive，spark的关系是什么

摘要：今天在开发过程中发现老师给的一个spark实验中大量用到了hive，甚至不用spark也可以完成，于是我就对这两个东西之间的关系去查了一些资料，在这里汇总下参考链接https://blog.csdn.net/qq_36617639/article/details/80324982 大数据本身是个很阅读全文

posted @ 2019-09-10 15:30 王怀宇阅读(817) 评论(0) 推荐(2)

Spark-RDD操作（26个常用函数附实例）

摘要：（1）进入spark （2）创建RDD 或者（3）map实例 1. 作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成 2. 需求：创建一个1-10数组的RDD，将所有元素*2形成新的RDD （4）mapPartitions(func) 案例 1. 作用：类似于map，但阅读全文

posted @ 2019-09-06 16:54 王怀宇阅读(6118) 评论(0) 推荐(0)

hive窗口函数

摘要：1．相关函数说明 OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化 CURRENT ROW：当前行 n PRECEDING：往前n行数据 n FOLLOWING：往后n行数据 UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， U 阅读全文

posted @ 2019-09-05 18:05 王怀宇阅读(208) 评论(0) 推荐(1)

hive操作（行转列，列转行）

摘要：一、行转列 1．相关函数说明 CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔阅读全文

posted @ 2019-09-05 14:58 王怀宇阅读(11918) 评论(0) 推荐(1)

Hive中使用case then分情况求和

摘要：1. 数据准备（tab分割不要用空格）悟空 A 男大海 A 男宋宋 B 男凤姐 A 女婷姐 B 女婷婷 B 女 2．需求求出不同部门男女各多少人。结果如下： 3．新建文件将上述内容写入 4．在hive创建数据表 5．按需求查询 6.结果显示阅读全文

posted @ 2019-09-05 14:27 王怀宇阅读(982) 评论(0) 推荐(0)

hive分组排序（rank函数+partiton实现）

摘要：Rank 1．函数说明 RANK() 排序相同时会重复，总数不会变 DENSE_RANK() 排序相同时会重复，总数会减少 ROW_NUMBER() 会根据顺序计算 2．数据准备（手巧时切记用tab分开，不要用空格，会报错0 孙悟空语文 87孙悟空数学 95孙悟空英语 68大海语文 94大海阅读全文

posted @ 2019-09-05 13:57 王怀宇阅读(5198) 评论(0) 推荐(1)

软件工程培训第四天总结，hive的学习

摘要：一、学习过程今天的主要内容时hive的使用学习，从开始老师为我们讲解了hive的性质和来源以及他的运行流程。然后老师为我们讲了hive的安装，安装成功后老师按照之前发过的文档，逐条的为我们解释hive的使用方式，并为我们讲解例题。二、总结今天我学到hive的使用方式以及一些使用hive查询数据阅读全文

posted @ 2019-09-04 19:00 王怀宇阅读(153) 评论(0) 推荐(0)

hive小知识（分区&分桶；内部表&外部表）

摘要：（一）内部表&外部表未被external修饰的是内部表（managed table），被external修饰的为外部表（external table）；区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认阅读全文

posted @ 2019-09-04 16:54 王怀宇阅读(558) 评论(0) 推荐(0)

Hive操作（集合操作，删除表操作）

摘要：（一）集合数据类型数据类型描述语法示例 STRUCT 和c语言中的struct类似，都可以通过“点”符号访问元素内容。例如，如果某个列的数据类型是STRUCT{first STRING, last STRING},那么第1个元素可以通过字段.first来引用。 struct() MAP MAP 阅读全文

posted @ 2019-09-04 16:09 王怀宇阅读(2589) 评论(0) 推荐(1)

mapreduce序列化操作

摘要：1. 需求统计每一个手机号耗费的总上行流量、下行流量、总流量（1）输入数据（2）输入数据格式： 7 13560436666 120.196.100.99 1116 954 200 id 手机号码网络ip 上行流量下行流量网络状态码 7 13560436666 120.196.100.99 阅读全文

posted @ 2019-09-03 20:53 王怀宇阅读(515) 评论(0) 推荐(0)

软件工程培训第三天总结，hadoop和mapreduce基础（附：hbase，mongodb，redis的区别）

摘要：培训总结（三）（一）学习过程开始老师先讲诉了大数据的起源和具体应用以及应用的意义。然后老师为我们讲诉了hadoop的安装（虽然这个早就安装了好几遍），在hadoop安装成功后老师带我们做了一个简单的wordcount的例子，让我再一次重温了mapreduce的基础知识，在课程的最后老师给我留了一阅读全文

posted @ 2019-09-02 21:33 王怀宇阅读(380) 评论(0) 推荐(0)

java实现HDFS上文件的判断，添加，查询

摘要：（一）在eclipse中新建一个java项目，就普通建一个java项目就可以，然后添加hadoop的依赖包（二）打开后选择add Exernal jars 添加hadoop的包，包的位置如下（/usr/local/hadoop/是我的hadoop路径） /usr/local/hadoop/shar 阅读全文

posted @ 2019-09-02 16:49 王怀宇阅读(1411) 评论(0) 推荐(0)

Ubuntu下安装javaee配置jdk和tomcat

摘要：（一）下载eclipse for javaee下面是下载地址 https://www.eclipse.org/downloads/download.php?file=/technology/epp/downloads/release/2019-06/R/eclipse-jee-2019-06-R-l 阅读全文

posted @ 2019-08-30 17:28 王怀宇阅读(233) 评论(0) 推荐(0)

Spark-shell实验1简单的shell操作

摘要：某大学计算机系的成绩，数据格式如下所示：Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……请根据给定的实验数据，在 spark-shell 中阅读全文

posted @ 2019-03-12 22:23 王怀宇阅读(2339) 评论(0) 推荐(1)

(?ω?)

Android

随笔分类 - Ubuntu+大数据

公告