3月3日

Hive+Spark性能优化

配置Spark作为Hive执行引擎

使用PySpark读取Hive表

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("HiveIntegration") \
    .config("spark.sql.hive.convertMetastoreOrc", "true") \
    .enableHiveSupport() \
    .getOrCreate()

df = spark.sql("SELECT * FROM logs WHERE dt='2023-03-01'")
df.write.saveAsTable("cleaned_logs")

posted @ 2025-03-10 08:03 KuanDong24 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

kuandong24

3月3日

公告