04 2022 档案
摘要:1.1 PySpark-DataFrame创建: spark.read.text(url) spark.read.format("text").load("people.txt") >>> df1 = spark.read.text('file:///usr/local/spark/examples
阅读全文
摘要:一、集合运算练习 union(), intersection(),subtract(), cartesian() >>> rdd1 = sc.parallelize('abcd') >>> rdd2 = sc.parallelize('bcde') >>> rdd1.union(rdd2).coll
阅读全文
摘要:一、词频统计 A. 分步骤实现 1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 2、读文件创建RDD >>> text = sc.textFile("file:///home/hadoop/wc/f1.txt") 3、分词 >>> import re >>> pattern = " |\,|\
阅读全文