Spark SQL 基础:DataFrame 常用操作

知识点:
数据查询:select、filter、where、orderBy
数据聚合:groupBy、agg、count、sum、avg
数据修改:withColumn、drop、rename
练习:
实现 DataFrame 版词频统计:

df = spark.read.text("test.txt")

分词并展开

from pyspark.sql.functions import split, explode, count
df_word = df.select(explode(split(df.value, " ")).alias("word"))

词频统计

df_word_count = df_word.groupBy("word").agg(count("*").alias("count")).orderBy("count", ascending=False)
df_word_count.show()
对用户数据 DataFrame 进行筛选、聚合和列修改
易错:
Spark SQL 内置函数(如explode、split)需从pyspark.sql.functions导入
withColumn用于新增或修改列,drop用于删除列

posted @ 2026-01-24 09:51  再报错就堵桥0  阅读(2)  评论(0)    收藏  举报