随笔档案「2022年4月」 - 金世佳

Spark SQL

摘要：1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程阅读全文

posted @ 2022-04-26 11:15 金世佳阅读(754) 评论(0) 推荐(0)

RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() rdd1.union(rdd2).collect() rdd1.intersection(rdd2).collect() rdd1.subtract(rdd2).collect() rdd1 阅读全文

posted @ 2022-04-20 11:47 金世佳阅读(62) 评论(0) 推荐(0)

RDD操作综合实例

摘要：一、准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上二、读文件创建RDD 输入pyspark 三、分词四、排除大小写lower()，map()，标点符号re.split(pattern,str)，flatMap(),，停用词,可网盘下载stopwords.txt,filter()，，长度阅读全文

posted @ 2022-04-07 17:14 金世佳阅读(68) 评论(0) 推荐(0)

是你die

04 2022 档案

公告