摘要: 实验操作步骤 1、读取csv文件,并创建dataframe sc = SparkContext() sqlContext = SQLContext(sc) reader = sqlContext.read df_emp = reader.schema("emp_id String, emp_name 阅读全文
posted @ 2021-10-27 16:29 星月故里yw 阅读(277) 评论(0) 推荐(0)
摘要: 1、Spark测试时出现错误 原因: 由于之前修改了主机名,导致修改后的主机名和hosts文件中的127.0.0.1映射不存在,因此在执行spark-shell和pyspark的时候,会出现错误, 经过不断的测试,找到了问题并成功解决。 解决方法: 使用hostname命令查看当前主机名,我这边是u 阅读全文
posted @ 2021-10-27 15:34 星月故里yw 阅读(223) 评论(0) 推荐(0)
摘要: 1、实验要求 对给定的一个英文文本,使用Spark完成文本内容的读取并转换成RDD,然后使用RDD的算子统计每个单词出现的次数,将统计结果按从大到小的顺序打印到控制台上。 2、实验代码 import findspark findspark.init() from pyspark import Spa 阅读全文
posted @ 2021-10-27 15:29 星月故里yw 阅读(1934) 评论(0) 推荐(0)