2.12
今天学习了如何将Spark与Hive集成,使用Hive作为数据仓库。通过Spark SQL,可以直接查询Hive表并将结果保存到Hive中。
代码示例:
python
复制
from pyspark.sql import SparkSession
# 创建SparkSession并启用Hive支持
spark = SparkSession.builder \
.appName("HiveIntegration") \
.enableHiveSupport() \
.getOrCreate()
# 查询Hive表
result = spark.sql("SELECT * FROM my_hive_table")
# 显示结果
result.show()
# 将结果保存到Hive表
result.write.mode("overwrite").saveAsTable("my_hive_table_output")
spark.stop()