会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
清风紫雪
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
8
9
10
11
12
13
14
15
16
···
34
下一页
2021年1月13日
Spark学习进度10-DS&DF基础操作
摘要: 有类型操作 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset val ds1=Seq("hello spark","hello hadoop").toDS() ds1.flatMap(item => item.split(" ")).show(
阅读全文
posted @ 2021-01-13 18:41 清风紫雪
阅读(666)
评论(0)
推荐(0)
2021年1月12日
SparkSQL学习进度9-SQL实战案例
摘要: Spark SQL 基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , "n
阅读全文
posted @ 2021-01-12 22:28 清风紫雪
阅读(235)
评论(0)
推荐(0)
2021年1月11日
Spark学习进度8-SparkSQL
摘要: SparkSQL简介 SparkSQL 的出现契机 SparkSQL 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL
阅读全文
posted @ 2021-01-11 21:16 清风紫雪
阅读(129)
评论(0)
推荐(0)
2021年1月10日
Spark学习进度7-综合案例
摘要: 综合案例 文件排序 解法: 1.读取数据 2.数据清洗,变换数据格式 3.从新分区成一个分区 4.按照key排序,返还带有位次的元组 5.输出 @Test def filesort(): Unit ={ val source=sc.textFile("dataset/filesort.txt",3)
阅读全文
posted @ 2021-01-10 23:41 清风紫雪
阅读(184)
评论(0)
推荐(0)
2021年1月9日
Spark学习进度-Scala编程
摘要: Scala编程 1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例如,若 q 的值为 50.0,则输出应为:Sn=50.416695。请将源文件保存为exercise2-1.scala,
阅读全文
posted @ 2021-01-09 21:26 清风紫雪
阅读(147)
评论(0)
推荐(0)
2021年1月8日
Spark学习进度-实战测试
摘要: spark-shell 交互式编程 题目:该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,DataStruct
阅读全文
posted @ 2021-01-08 22:21 清风紫雪
阅读(412)
评论(0)
推荐(0)
2021年1月7日
Spark学习进度-Transformation算子
摘要: Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize(Seq(1,2,3,4,5)) val rdd2=sc.parallelize(Seq(3,4,5,
阅读全文
posted @ 2021-01-07 22:32 清风紫雪
阅读(136)
评论(0)
推荐(0)
2021年1月6日
Spark学习进度-RDD算子
摘要: RDD算子 深入RDD 需求 给定一个网站的访问记录, 俗称 Access log 计算其中出现的独立 IP, 以及其访问的次数 数据格式如下: 代码: @Test def ipAGG(): Unit ={ //1.创建SparkContext val conf=new SparkConf().se
阅读全文
posted @ 2021-01-06 23:17 清风紫雪
阅读(121)
评论(0)
推荐(0)
2021年1月5日
Spark学习进度-RDD
摘要: RDD RDD 是什么 定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区. 同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map,
阅读全文
posted @ 2021-01-05 23:02 清风紫雪
阅读(177)
评论(0)
推荐(0)
spark读取HDFS目录时报错Failed on local exception: com.google.protobuf.InvalidProtocolBufferException
摘要: 提交命令sc.textFile(“hdfs://hadoop101:50070/data/wordcount.txt”).collect() spark报异常 这里时HDFS端口问题,将50070端口改为8020再提交sc.textFile(“hdfs://hadoop101:8020/data/w
阅读全文
posted @ 2021-01-05 12:23 清风紫雪
阅读(899)
评论(0)
推荐(0)
上一页
1
···
8
9
10
11
12
13
14
15
16
···
34
下一页
公告