Spark SQL 基础:DataFrame 常用操作
知识点:
数据查询:select、filter、where、orderBy
数据聚合:groupBy、agg、count、sum、avg
数据修改:withColumn、drop、rename
练习:
实现 DataFrame 版词频统计:
df = spark.read.text("test.txt")
分词并展开
from pyspark.sql.functions import split, explode, count
df_word = df.select(explode(split(df.value, " ")).alias("word"))
词频统计
df_word_count = df_word.groupBy("word").agg(count("*").alias("count")).orderBy("count", ascending=False)
df_word_count.show()
对用户数据 DataFrame 进行筛选、聚合和列修改
易错:
Spark SQL 内置函数(如explode、split)需从pyspark.sql.functions导入
withColumn用于新增或修改列,drop用于删除列

浙公网安备 33010602011771号