摘要:
今天学习了如何将Spark与Hadoop集成,使用HDFS作为数据存储。通过Hadoop的HDFS API,Spark可以直接读取和写入HDFS上的文件。 代码示例: python复制from pyspark import SparkContext sc = SparkContext("local" 阅读全文
posted @ 2025-02-06 23:57
混沌武士丞
阅读(18)
评论(0)
推荐(0)
摘要:
今天学习了Spark性能优化的方法,包括数据分区、缓存策略和广播变量。合理使用这些技术可以显著提升Spark作业的执行效率。 代码示例: python复制from pyspark import SparkContext sc = SparkContext("local", "Performance 阅读全文
posted @ 2025-02-05 22:28
混沌武士丞
阅读(9)
评论(0)
推荐(0)
摘要:
天学习了Spark GraphX,它是Spark中用于图计算的库。GraphX提供了图数据的抽象和操作,适用于社交网络、推荐系统等场景。 代码示例: python复制from pyspark import SparkContextfrom pyspark.sql import SparkSessio 阅读全文
posted @ 2025-02-04 23:56
混沌武士丞
阅读(13)
评论(0)
推荐(0)
摘要:
学习了Spark MLlib,它是Spark的机器学习库。今天尝试了简单的线性回归示例。 代码示例: python复制from pyspark.ml.regression import LinearRegressionfrom pyspark.sql import SparkSession spar 阅读全文
posted @ 2025-02-01 22:57
混沌武士丞
阅读(10)
评论(0)
推荐(0)
浙公网安备 33010602011771号