2.15
今天学习了如何将Spark与关系型数据库(如MySQL)集成,通过JDBC读取和写入数据。
代码示例:
python
复制
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("JDBCIntegration").getOrCreate()
# 定义JDBC连接参数
jdbc_url = "jdbc:mysql://localhost:3306/test_db"
connection_properties = {
"user": "root",
"password": "password",
"driver": "com.mysql.cj.jdbc.Driver"
}
# 从MySQL读取数据
df = spark.read.jdbc(jdbc_url, "my_table", properties=connection_properties)
# 显示数据
df.show()
# 将数据写入MySQL
df.write.jdbc(jdbc_url, "my_table_output", mode="overwrite", properties=connection_properties)
spark.stop()