2022 年 8月 25 日随笔档案 - jsqup

2022年8月25日

摘要： RDD: 以Person为类型参数，但是Spark框架本身不了解Person类的内部结构。 DataFrame: DataFrame每一行的类型固定为Row, 每一列的值没法直接访问，只有通过解析才能获取各个字段的值。 DataSet: DataFrame也可以叫DataSet[Row]，每一行类型阅读全文

posted @ 2022-08-25 22:49 jsqup 阅读(199) 评论(0) 推荐(0)

RDD的特点及弹性的体现

摘要： ![](https://img2022.cnblogs.com/blog/2487693/202208/2487693-20220825221328631-981642277.png) 阅读全文

posted @ 2022-08-25 22:14 jsqup 阅读(10) 评论(0) 推荐(0)

RDD数据集

摘要： 1. 创建RDD数据集 1. 从现有的Scala集合创建RDD数据集 parallelize(Seq, numSlices): 定义： Seq:Array或者List numSlices:代表创建的RDD的分区数，如果没传递，有一个默认值，默认分区就是spark.default.parallelis 阅读全文

posted @ 2022-08-25 18:40 jsqup 阅读(131) 评论(0) 推荐(0)

SparkCore案例一：数据过滤

摘要： 1. 要求 1. 过去用户的行为日志数据中响应状态码大于等于400的数据 2. 并且需要查看一下合法的数据有多少条，不合法的数据有多少条 3. 将处理完成的结果保存到HDFS分布式文件存储系统上 2. 代码：使用自带累加器 /* 180.153.11.130 - - 2018-03-18 11:42 阅读全文

posted @ 2022-08-25 18:40 jsqup 阅读(142) 评论(0) 推荐(0)

广播变量

摘要：广播变量有个要求，广播变量是只读的，分区中只能获取广播变量的值，无法更改广播变量的值优势：节省了磁盘io，数据量越大，效果越明显使用：直接通过广播变量的.value函数获取广播变量的值案例 package videovar import org.apache.spark.rdd.RDD imp 阅读全文

posted @ 2022-08-25 10:55 jsqup 阅读(68) 评论(0) 推荐(0)

jsqup

公告