2021 年 10月 27 日随笔档案 - 星月故里yw

2021年10月27日

摘要：实验操作步骤 1、读取csv文件，并创建dataframe sc = SparkContext() sqlContext = SQLContext(sc) reader = sqlContext.read df_emp = reader.schema("emp_id String, emp_name 阅读全文

posted @ 2021-10-27 16:29 星月故里yw 阅读(277) 评论(0) 推荐(0)

spark安装后测试遇到的错误

摘要： 1、Spark测试时出现错误原因：由于之前修改了主机名，导致修改后的主机名和hosts文件中的127.0.0.1映射不存在，因此在执行spark-shell和pyspark的时候，会出现错误，经过不断的测试，找到了问题并成功解决。解决方法：使用hostname命令查看当前主机名，我这边是u 阅读全文

posted @ 2021-10-27 15:34 星月故里yw 阅读(223) 评论(0) 推荐(0)

使用Spark RDD完成词频统计

摘要： 1、实验要求对给定的一个英文文本，使用Spark完成文本内容的读取并转换成RDD，然后使用RDD的算子统计每个单词出现的次数，将统计结果按从大到小的顺序打印到控制台上。 2、实验代码 import findspark findspark.init() from pyspark import Spa 阅读全文

posted @ 2021-10-27 15:29 星月故里yw 阅读(1934) 评论(0) 推荐(0)

星月故里

愿你游历半生，归来仍是少年。

公告