04 2022 档案

摘要:1.1 PySpark-DataFrame创建: spark.read.text(url) spark.read.format("text").load("people.txt") >>> df1 = spark.read.text('file:///usr/local/spark/examples 阅读全文
posted @ 2022-04-28 00:29 版田一giao 阅读(84) 评论(0) 推荐(0)
摘要:一、集合运算练习 union(), intersection(),subtract(), cartesian() >>> rdd1 = sc.parallelize('abcd') >>> rdd2 = sc.parallelize('bcde') >>> rdd1.union(rdd2).coll 阅读全文
posted @ 2022-04-13 17:05 版田一giao 阅读(86) 评论(0) 推荐(0)
摘要:一、词频统计 A. 分步骤实现 1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 2、读文件创建RDD >>> text = sc.textFile("file:///home/hadoop/wc/f1.txt") 3、分词 >>> import re >>> pattern = " |\,|\ 阅读全文
posted @ 2022-04-06 17:04 版田一giao 阅读(77) 评论(0) 推荐(0)