2022 年 4月随笔档案 - 版田一giao

7. Spark SQL

摘要：1.1 PySpark-DataFrame创建： spark.read.text(url) spark.read.format("text").load("people.txt") >>> df1 = spark.read.text('file:///usr/local/spark/examples 阅读全文

posted @ 2022-04-28 00:29 版田一giao 阅读(84) 评论(0) 推荐(0)

6. RDD综合练习：更丰富的操作

摘要：一、集合运算练习 union()， intersection()，subtract(), cartesian() >>> rdd1 = sc.parallelize('abcd') >>> rdd2 = sc.parallelize('bcde') >>> rdd1.union(rdd2).coll 阅读全文

posted @ 2022-04-13 17:05 版田一giao 阅读(86) 评论(0) 推荐(0)

5.RDD操作和综合实例

摘要：一、词频统计 A. 分步骤实现 1、准备文件下载小说或长篇新闻稿上传到hdfs上 2、读文件创建RDD >>> text = sc.textFile("file:///home/hadoop/wc/f1.txt") 3、分词 >>> import re >>> pattern = " |\,|\ 阅读全文

posted @ 2022-04-06 17:04 版田一giao 阅读(77) 评论(0) 推荐(0)

世炯

04 2022 档案

公告